菜单
  

    本文包括五章的内容:
    第一章绪论。本章主要介绍论文的研究背景及意义,介绍了大数据的背景及大数据时代云计算的发展状况,提出了本文研究的主要内容。
    第二章开源云平台Hadoop及数据挖掘概述。本章首先介绍Hadoop生态系统的组成,对Hadoop的核心技术架构HDFS、 MapReduce和HBase的体系及其相关特性进行深入的讨论分析。阐释什么是数据挖掘,包括其中的分类及聚类的概念及主要算法。
    第三章基于Hadoop的数据挖掘系统的设计。本章通过搭建Hadoop平台,构建试验环境,并对集群进行了稳定性测试,为今后的实验打下基础。
    第四章Naive Bayes分类算法的研究与优化。本章介绍了在Hadoop平台上的分类算法的执行过程,并详细描述了Naive Bayes分类算法的特性,及其相应的并行策略,并成功地将其移植到Hadoop平台,之后就算法优化的对比结论展开分析。
    第五章K-Means聚类算法的研究与优化。本章介绍了在Hadoop平台上聚类算法的执行过程,并以K-Means算法为例,详细地解读了聚类算法的设计及实现,其中介绍了K-Means算法的特性及其并行策略,并成功地将其移植到Hadoop并行计算平台,之后就算法优化的对比结论展开分析。

    2    Hadoop及数据挖掘概述
    2.1    Hadoop云计算平台
    2.1.1    Hadoop生态圈架构
    在2005年夏天,Jeffrey Dean和Sanjay Ghemawat提出了MapReduce的框架模型,意着Google的大型数据处理系统的正式公开。当年秋天,在这篇论文的启发下,Hadoop作为lucence子项目Nutch的一个部分被Apache正式引入。
    Hadoop是非常优秀的大数据解决方案,它可以对PB尺度下的散乱信息进行处理和分析,可以被开发者利用多种工具达成很多目的,例如数据挖掘。Hadoop依托Google公司的的MapReduce和分布式文件系统技术,可配置在随处可见的普通的小型计算机以及服务器上。即使是没有经验的用户也可以很方便的在Hadoop上使用其提供的分布式编程来处理大量的数据,在有需要的时候还可以方便的对载体硬件实施升级工作。还可以处于无人值守时处理多种故障,包含的工具能进行排错、修复,适用性大大增加。
    这些解决方案都是针对巨额数据的,花样繁多,我们可以用盆洗脸用盆刷牙,用导弹发射卫星用导弹点烟,各有各的用途和使用环境,寻找到合适的才是最重要的。
  1. 上一篇:基于云平台的web日志挖掘与研究
  2. 下一篇:vb+sqlserver家庭理财软件设计与实现
  1. 基于MATLAB的图像增强算法设计

  2. jsp+sqlserver高校二手商品交...

  3. 基于Kinect的手势跟踪与识别算法设计

  4. JAVA基于安卓平台的医疗护工管理系统设计

  5. java+mysql设备监控记录的大...

  6. 基于核独立元分析的非线...

  7. 基于Hadoop的制造过程大数据存储平台构建

  8. 电站锅炉暖风器设计任务书

  9. 河岸冲刷和泥沙淤积的监测国内外研究现状

  10. 当代大学生慈善意识研究+文献综述

  11. 酸性水汽提装置总汽提塔设计+CAD图纸

  12. java+mysql车辆管理系统的设计+源代码

  13. 十二层带中心支撑钢结构...

  14. 中考体育项目与体育教学合理结合的研究

  15. 杂拟谷盗体内共生菌沃尔...

  16. 大众媒体对公共政策制定的影响

  17. 乳业同业并购式全产业链...

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回