2.1 分布式存储HDFS 6
2.2 分布式计算MAPREDUCE 7
2.3高可用HADOOP集群搭建及优化 9
2.3.1集群整体架构设计 10
2.3.2 LINUX环境配置 11
2.3.3 HADOOP集群搭建 14
2.4 本章小结 20
3 基于Hadoop的海量文本分类算法研究 21
3.1 中文文本原始数据 23
3.2 基于MAPREDUCE的文本分类算法 23
3.2.1中文文本分词 23
3.2.2中文分词工具 24
3.2.3基于MAPREDUCE的分词算法改进 24
3.3 基于MAPREDUCE的文本分类算法 29
3.3.1朴素贝叶斯基本原理 30
3.3.2基于MAPREDUCE的朴素贝叶斯算法设计与实现 31
4 实验及结果分析 35
4.1 实验整体流程 35
4.2 中文分词 36
4.3 文本分类 37
4.4 模型与验证 42
5 总结与展望 44
5.1 本文工作总结 44
5.2 未来的工作展望 44
致谢 45
参考文献 46
1 引言
本章首先介绍了课题的研究背景,主要介绍了云计算和大数据的一些研究现状,并且分析现有文本分类的研究成果,并对存在的问题进行阐述;在此基础上,详细介绍了本文的研究目标,研究内容和意义;最后简介本文的组织结构。
1.1 研究背景
互联网的广泛使用和物联设备的爆炸性增长,以及社交网络、传感器网络的飞速增长,带给人们是无所不在的连接和便利。我们已经从人与人的连接走向人与网络的连接,我们逐渐走向一个新的互联网时代,我们也越来越离不开网络。我们的每一个行为都将产生新的网络数据存储在互联网中[1]。
2012年互联网设备已经达到55亿,超过全球人口的70%,社交网络拥有20亿的用户,传感器网络设备超过100亿。这些设备和网络无时无刻生成数据[2],互联网数据中心(Internet Data Center)IDC统计2014年新增了4.1ZB的数据。2015年全球数据增长7.9ZB以上[3]。而且还保持着快速增长,基本保持了每十八个月全球数据翻一倍的速度进行增长。
2015年7月中国互联网信息中心公布数据显示,截至2015年6月中国网站数量为357万个,半年时间增长了6%。而2014年CNNIC公布了截至2013年底中国网站总计1500亿;2016年公布截至2015年12月,中国网站总数超过2000亿个。可以看出中国互联网还在迅猛发展,迫切需要一个适应大数据时代的信息检索,因此,如何从海量数据中有效快速查找用户需要的的有效数据,提高用户的查找准确率成为一个巨大的挑战。论文网