目前在使用Openstack平台的世界巨头有:技术提供者之一的NASA、惠普云、思科、维基百科、DELL等,各大操作系统均已主动整合Openstack。可以说,Openstack在大数据时代的潮流里已经站稳脚跟,并且仍在不断完善提升自己。截止目前为止,又发布了最新的版本Mitaka,可以说经过几年的考验,仍然迸发着活力和动力。
1.2 Hadoop发展现状
Hadoop是在大数据潮流中,应运而生的大数据处理和存储策略源`自*751?文.论~文`网[www.751com.cn,是一套分布式开源软件框架。部署于大型集群之上,是处理大量数据的一把好手。相比Openstack,Hadoop稍显年轻,也没有Openstack那样成熟可靠的技术背景。但在短短几年时间内,Hadoop以光速成长,迅速进入业界的视野。其提供的大数据处理策略在短时间内就得到人们的认可,并纷纷加入完善它的队伍,使得Hadoop的技术成长速度快得惊人,在最初的几年,版本号迅速迭代,快到甚至开发跟不上升级的速度。而在近两年,版本发布速度放缓,基本稳定下来,这也意着Hadoop的技术体系已经相对成熟完善。
Hadoop下拥有许多模块,如列式数据库Hbase、HDFS、方便传统SQL DBA操作的Hive、组件管理者Zookeeper以及鼎鼎大名的分布式算法策略MapReduce等。每一项技术都为大数据量身定制,完美契合大数据时代的实际需求,使得其一经面世,便获得众多业界人士的追捧。成为各大IT媒体的热点,也成为每个大数据人见面必谈的话题。
1.3 本文研究内容及主要贡献
本文主要研究OpenStack平台下Hadoop的部署及运维工作,Openstack平台搭建为辅,Hadoop的部署、运用、维护为主,同时尝试编写小实例,使用Hadoop
集群进行简单的数据处理和分析,最终总结出一套完整的Openstack下Hadoop的部署、维护策略。
假如说有价值的信息是丰富可口的菜肴,大数据是种类繁多的食材,那么Openstack就是坚实可靠的炉灶,Hadoop是各式各样精致的餐具。Openstack为大数据分析提供了前提,提供了可靠可用、操作方便的环境,Hadoop为大数据分析提供了众多合理、顺应潮流需求的大数据问题解决方案。二者结合,无疑是珠联璧合,如虎添翼。组合成的一整套大数据处理策略,能够使刚起步的小公司哪怕是个人,都能搭建起自己的私有云,凭借有限的硬件设备和资源处理庞大的数据量。可以说,时至今日,深入研究Openstack和Hadoop是非常有意义的,假若掌握了这一整套技术,那么基本可以应付大部分大数据带来的问题。
文本的主要贡献在于,将当下两个炙手可热的新兴技术结合使用,为大数据时代背景下数据量日益庞大,处理难度提升,有价值数据挖掘难度增大等问题提供一套科学合理,顺应技术潮流的解决方案。
2 Openstack平台准备
2.1 Openstack各组件的部署
组件名称 最新版本号(截止2016.5.14)
表2-1 Openstack各组件及版本号
Openstack发展至今日,已经包含了二十余个组件,如表1-1。其中较为重要、起核心作用的是三大组件:Nova、Neutron和Swift。其中,Nova主要负责计算模块,Neutron主要负责虚拟网络,Swift则主要负责云存储。