本文包括五章的内容:
第一章绪论。本章主要介绍论文的研究背景及意义,介绍了大数据的背景及大数据时代云计算的发展状况,提出了本文研究的主要内容。
第二章开源云平台Hadoop及数据挖掘概述。本章首先介绍Hadoop生态系统的组成,对Hadoop的核心技术架构HDFS、 MapReduce和HBase的体系及其相关特性进行深入的讨论分析。阐释什么是数据挖掘,包括其中的分类及聚类的概念及主要算法。
第三章基于Hadoop的数据挖掘系统的设计。本章通过搭建Hadoop平台,构建试验环境,并对集群进行了稳定性测试,为今后的实验打下基础。
第四章Naive Bayes分类算法的研究与优化。本章介绍了在Hadoop平台上的分类算法的执行过程,并详细描述了Naive Bayes分类算法的特性,及其相应的并行策略,并成功地将其移植到Hadoop平台,之后就算法优化的对比结论展开分析。
第五章K-Means聚类算法的研究与优化。本章介绍了在Hadoop平台上聚类算法的执行过程,并以K-Means算法为例,详细地解读了聚类算法的设计及实现,其中介绍了K-Means算法的特性及其并行策略,并成功地将其移植到Hadoop并行计算平台,之后就算法优化的对比结论展开分析。
2 Hadoop及数据挖掘概述
2.1 Hadoop云计算平台
2.1.1 Hadoop生态圈架构
在2005年夏天,Jeffrey Dean和Sanjay Ghemawat提出了MapReduce的框架模型,意着Google的大型数据处理系统的正式公开。当年秋天,在这篇论文的启发下,Hadoop作为lucence子项目Nutch的一个部分被Apache正式引入。
Hadoop是非常优秀的大数据解决方案,它可以对PB尺度下的散乱信息进行处理和分析,可以被开发者利用多种工具达成很多目的,例如数据挖掘。Hadoop依托Google公司的的MapReduce和分布式文件系统技术,可配置在随处可见的普通的小型计算机以及服务器上。即使是没有经验的用户也可以很方便的在Hadoop上使用其提供的分布式编程来处理大量的数据,在有需要的时候还可以方便的对载体硬件实施升级工作。还可以处于无人值守时处理多种故障,包含的工具能进行排错、修复,适用性大大增加。
这些解决方案都是针对巨额数据的,花样繁多,我们可以用盆洗脸用盆刷牙,用导弹发射卫星用导弹点烟,各有各的用途和使用环境,寻找到合适的才是最重要的。
- 上一篇:基于云平台的web日志挖掘与研究
- 下一篇:vb+sqlserver家庭理财软件设计与实现
-
-
-
-
-
-
-
电站锅炉暖风器设计任务书
河岸冲刷和泥沙淤积的监测国内外研究现状
当代大学生慈善意识研究+文献综述
酸性水汽提装置总汽提塔设计+CAD图纸
java+mysql车辆管理系统的设计+源代码
十二层带中心支撑钢结构...
中考体育项目与体育教学合理结合的研究
杂拟谷盗体内共生菌沃尔...
大众媒体对公共政策制定的影响
乳业同业并购式全产业链...