摘 要:Hadoop是一个免费、可靠、高效、可扩展的开源云平台,允许在分布式集群上处理大数据的软件框架。本文以 Hadoop为基础,详细介绍了虚拟机 VMware、JDK、CentOS、Hadoop等技术.在伪分布式环境下搭建虚拟云平台搭建,经过程序测试,本系统能正常运行MapReduce化的分布式程序,论文还对针对用户权限、路径配置和使用SSH服务程序等问题进行了详细的阐述,为基于Hadoop的云平台研究和应用程序开发提供了基础。31150
毕业论文关键词:Hadoop;MapReduce;云平台搭建
Construct the Cloud Computing Platform based on Hadoop
Abstract:Hadoop is a free open,reliable,efficient,scalable cloud platform,which is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.In this paper,with the help of some software such as virtual machine VMware,CentOS,Hadoop.JDK,the building process in the environment of virtual cloud platform was described in detail based on the Hadoop It completed the experiment environment,and point out that some problem must be paid attention during the building process,such as example for user right,path configuration and using of SSH service program.This experimental platform provides the basis for the development of system middleware and application service.
Key words:Hadoop;MapReduce;Construct the cloud computing platform
目 录
摘 要 1
引言 1
1.研究背景和意义 2
1.1研究背景和意义 2
1.2主要工作 3
2.相关技术介绍 3
2.1 HDFS的工作机制 3
2.2 MapReduce 编程模型 4
2.3 HBase数据库 5
2.4 Zookeeper的工作机制 5
3. 集群搭建 5
3.1虚拟机、操作系统安装 5
3.2 JDK的安装 6
3.3 设置SSH免密码登录 6
3.4 Hadoop的安装 6
3.5 Zookeeper的安装 7
3.6 HBase的安装 7
3.7 Hadoop文件系统格式化 7
3.8集群各个部件的启动命令 7
3.9 集群的关闭命令 7
4.集群测试 8
4.1 WordCount的运行 8
5.结论 8
参考文献. 9
致谢 10
基于Hadoop的云计算平台搭建引言
随着互联网时代信息与数据的飞速增长, 科学、工程和商业等计算领域需要处理大规模以及超大规模的数据, 对计算能力的需求远远超出自身系统架构的计算能力。云计算是分布式计算、并行处理和网格计算的进一步发展, 它是基于互联网的计算,能够向各种互联网应用提供基础架构服务、硬件服务、软件服务、平台服务、存储服务的系统。这就意着计算可以作为一种商品进行流通, 就像水电一样, 使用方便、费用相对低廉。此外, 由于传统并行编程模型应用的局限性, 客观上需要一种容易学习、使用、部署的编程框架。而Hadoop就是一个优秀的大数据处理框架,它高效,稳定。非常适合云计算的基础架构。
1.研究背景和意义
1.1研究背景和意义
目前,各种类型的网站或者业务系统所需要处理的业务量飞速增长,例如视频在线或者电子商务网站需要为用户储存或者处理大量的数据。这类系统所面临的重要问题是,如何在用户数量快速增长的情况下快速扩展原有系统,随着移动终端的智能化、移动宽带网络的普及,将有越来越多的移动设备进入互联网,这意着与移动终端相关的IT系统会承受更多的负载,而列于提供数据服务的企业来讲,IT系统需要处理更多的业务量。由于资源的有限性,其电力成本、空间成本、各种设施的文护成本快速上升,直接导致数据中心的成本上升,这就面临着如何有效地、更少地利用资源解决更多的问题。同时,随着高速网络连接的衍生,芯片和磁盘驱动器产品在功能增强的同时,价格也在变得更加低廉,拥有大量计算机的数据中心,也具备了快速为大量用户处理复杂问题的能力。技术上,分布式计算的日益成熟和应用,特别是网格计算的发展通过Internet把分散在各处的硬件、软件、信息资源连接成为一个巨大的整体,使得人们能够利用地理上分散于各处的资源,完成大规模的、复杂的计算和数据处理的任务。数据存储的快速增长产生了以GFS(Google File System),SAN(Storage Area NetWork)为代表的高性能存储技术。随着对计算能力、资源利用效率、资源集中化的迫切需求,云计算应运而生,而Hadoop是Google三篇论文的开源实现,其具有高可靠性,高扩展性,高效性,高容错性和低成本的特点,能够让用户轻松架构和使用的分布式计算平台。 基于Hadoop的云计算平台搭建:http://www.751com.cn/jisuanji/lunwen_27201.html