菜单
  

    2.1 分布式存储HDFS 6

    2.2 分布式计算MAPREDUCE 7

    2.3高可用HADOOP集群搭建及优化 9

    2.3.1集群整体架构设计 10

    2.3.2 LINUX环境配置 11

    2.3.3 HADOOP集群搭建 14

    2.4 本章小结 20

    3 基于Hadoop的海量文本分类算法研究 21

    3.1 中文文本原始数据 23

    3.2 基于MAPREDUCE的文本分类算法 23

    3.2.1中文文本分词 23

    3.2.2中文分词工具 24

    3.2.3基于MAPREDUCE的分词算法改进 24

    3.3 基于MAPREDUCE的文本分类算法 29

    3.3.1朴素贝叶斯基本原理 30

    3.3.2基于MAPREDUCE的朴素贝叶斯算法设计与实现 31

    4 实验及结果分析 35

    4.1 实验整体流程 35

    4.2  中文分词 36

    4.3  文本分类 37

    4.4  模型与验证 42

    5 总结与展望 44

    5.1 本文工作总结 44

    5.2 未来的工作展望 44

    致谢 45

    参考文献 46 

    1 引言

    本章首先介绍了课题的研究背景,主要介绍了云计算和大数据的一些研究现状,并且分析现有文本分类的研究成果,并对存在的问题进行阐述;在此基础上,详细介绍了本文的研究目标,研究内容和意义;最后简介本文的组织结构。

    1.1 研究背景

    互联网的广泛使用和物联设备的爆炸性增长,以及社交网络、传感器网络的飞速增长,带给人们是无所不在的连接和便利。我们已经从人与人的连接走向人与网络的连接,我们逐渐走向一个新的互联网时代,我们也越来越离不开网络。我们的每一个行为都将产生新的网络数据存储在互联网中[1]。

    2012年互联网设备已经达到55亿,超过全球人口的70%,社交网络拥有20亿的用户,传感器网络设备超过100亿。这些设备和网络无时无刻生成数据[2],互联网数据中心(Internet Data Center)IDC统计2014年新增了4.1ZB的数据。2015年全球数据增长7.9ZB以上[3]。而且还保持着快速增长,基本保持了每十八个月全球数据翻一倍的速度进行增长。

    2015年7月中国互联网信息中心公布数据显示,截至2015年6月中国网站数量为357万个,半年时间增长了6%。而2014年CNNIC公布了截至2013年底中国网站总计1500亿;2016年公布截至2015年12月,中国网站总数超过2000亿个。可以看出中国互联网还在迅猛发展,迫切需要一个适应大数据时代的信息检索,因此,如何从海量数据中有效快速查找用户需要的的有效数据,提高用户的查找准确率成为一个巨大的挑战。论文网

  1. 上一篇:java+mysql网上图书销售系统的设计与实现
  2. 下一篇:asp.net培训中心考试系统开发与建设
  1. 基于MATLAB的图像增强算法设计

  2. jsp+sqlserver高校二手商品交...

  3. 基于Kinect的手势跟踪与识别算法设计

  4. JAVA基于安卓平台的医疗护工管理系统设计

  5. java+mysql设备监控记录的大...

  6. 基于核独立元分析的非线...

  7. 基于Hadoop的制造过程大数据存储平台构建

  8. 中考体育项目与体育教学合理结合的研究

  9. 杂拟谷盗体内共生菌沃尔...

  10. 酸性水汽提装置总汽提塔设计+CAD图纸

  11. 大众媒体对公共政策制定的影响

  12. java+mysql车辆管理系统的设计+源代码

  13. 乳业同业并购式全产业链...

  14. 河岸冲刷和泥沙淤积的监测国内外研究现状

  15. 电站锅炉暖风器设计任务书

  16. 十二层带中心支撑钢结构...

  17. 当代大学生慈善意识研究+文献综述

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回