基于hadoop的海量文本分类算法研究(2)

菜单

2.1 分布式存储HDFS 6

2.2 分布式计算MAPREDUCE 7

2.3高可用HADOOP集群搭建及优化 9

2.3.1集群整体架构设计 10

2.3.2 LINUX环境配置 11

2.3.3 HADOOP集群搭建 14

2.4 本章小结 20

3 基于Hadoop的海量文本分类算法研究 21

3.1 中文文本原始数据 23

3.2 基于MAPREDUCE的文本分类算法 23

3.2.1中文文本分词 23

3.2.2中文分词工具 24

3.2.3基于MAPREDUCE的分词算法改进 24

3.3 基于MAPREDUCE的文本分类算法 29

3.3.1朴素贝叶斯基本原理 30

3.3.2基于MAPREDUCE的朴素贝叶斯算法设计与实现 31

4 实验及结果分析 35

4.1 实验整体流程 35

4.2 中文分词 36

4.3 文本分类 37

4.4 模型与验证 42

5 总结与展望 44

5.1 本文工作总结 44

5.2 未来的工作展望 44

致谢 45

参考文献 46

1 引言

本章首先介绍了课题的研究背景，主要介绍了云计算和大数据的一些研究现状，并且分析现有文本分类的研究成果，并对存在的问题进行阐述；在此基础上，详细介绍了本文的研究目标，研究内容和意义；最后简介本文的组织结构。

1.1 研究背景

互联网的广泛使用和物联设备的爆炸性增长，以及社交网络、传感器网络的飞速增长，带给人们是无所不在的连接和便利。我们已经从人与人的连接走向人与网络的连接，我们逐渐走向一个新的互联网时代，我们也越来越离不开网络。我们的每一个行为都将产生新的网络数据存储在互联网中[1]。

2012年互联网设备已经达到55亿，超过全球人口的70%，社交网络拥有20亿的用户，传感器网络设备超过100亿。这些设备和网络无时无刻生成数据[2]，互联网数据中心（Internet Data Center）IDC统计2014年新增了4.1ZB的数据。2015年全球数据增长7.9ZB以上[3]。而且还保持着快速增长，基本保持了每十八个月全球数据翻一倍的速度进行增长。

2015年7月中国互联网信息中心公布数据显示，截至2015年6月中国网站数量为357万个，半年时间增长了6%。而2014年CNNIC公布了截至2013年底中国网站总计1500亿；2016年公布截至2015年12月，中国网站总数超过2000亿个。可以看出中国互联网还在迅猛发展，迫切需要一个适应大数据时代的信息检索，因此，如何从海量数据中有效快速查找用户需要的的有效数据，提高用户的查找准确率成为一个巨大的挑战。论文网