毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

基于hadoop的海量文本分类算法研究(2)

时间:2021-02-09 17:45来源:毕业论文
2.1 分布式存储HDFS 6 2.2 分布式计算MAPREDUCE 7 2.3高可用HADOOP集群搭建及优化 9 2.3.1集群整体架构设计 10 2.3.2 LINUX环境配置 11 2.3.3 HADOOP集群搭建 14 2.4 本章小结

2.1 分布式存储HDFS 6

2.2 分布式计算MAPREDUCE 7

2.3高可用HADOOP集群搭建及优化 9

2.3.1集群整体架构设计 10

2.3.2 LINUX环境配置 11

2.3.3 HADOOP集群搭建 14

2.4 本章小结 20

3 基于Hadoop的海量文本分类算法研究 21

3.1 中文文本原始数据 23

3.2 基于MAPREDUCE的文本分类算法 23

3.2.1中文文本分词 23

3.2.2中文分词工具 24

3.2.3基于MAPREDUCE的分词算法改进 24

3.3 基于MAPREDUCE的文本分类算法 29

3.3.1朴素贝叶斯基本原理 30

3.3.2基于MAPREDUCE的朴素贝叶斯算法设计与实现 31

4 实验及结果分析 35

4.1 实验整体流程 35

4.2  中文分词 36

4.3  文本分类 37

4.4  模型与验证 42

5 总结与展望 44

5.1 本文工作总结 44

5.2 未来的工作展望 44

致谢 45

参考文献 46 

1 引言

本章首先介绍了课题的研究背景,主要介绍了云计算和大数据的一些研究现状,并且分析现有文本分类的研究成果,并对存在的问题进行阐述;在此基础上,详细介绍了本文的研究目标,研究内容和意义;最后简介本文的组织结构。

1.1 研究背景

互联网的广泛使用和物联设备的爆炸性增长,以及社交网络、传感器网络的飞速增长,带给人们是无所不在的连接和便利。我们已经从人与人的连接走向人与网络的连接,我们逐渐走向一个新的互联网时代,我们也越来越离不开网络。我们的每一个行为都将产生新的网络数据存储在互联网中[1]。

2012年互联网设备已经达到55亿,超过全球人口的70%,社交网络拥有20亿的用户,传感器网络设备超过100亿。这些设备和网络无时无刻生成数据[2],互联网数据中心(Internet Data Center)IDC统计2014年新增了4.1ZB的数据。2015年全球数据增长7.9ZB以上[3]。而且还保持着快速增长,基本保持了每十八个月全球数据翻一倍的速度进行增长。

2015年7月中国互联网信息中心公布数据显示,截至2015年6月中国网站数量为357万个,半年时间增长了6%。而2014年CNNIC公布了截至2013年底中国网站总计1500亿;2016年公布截至2015年12月,中国网站总数超过2000亿个。可以看出中国互联网还在迅猛发展,迫切需要一个适应大数据时代的信息检索,因此,如何从海量数据中有效快速查找用户需要的的有效数据,提高用户的查找准确率成为一个巨大的挑战。论文网 基于hadoop的海量文本分类算法研究(2):http://www.751com.cn/jisuanji/lunwen_69628.html

------分隔线----------------------------
推荐内容