摘要本文以中文文本分类为基础对网络舆情信息进行分类研究。本文借鉴国外分类发展史与国内文本分类发展现状,着手于当下常用中文文本分类技术,进行分类的实践操作。在实验中,作者首先运用新浪API对网络舆情进行信息扒取成为本次课题的实验数据来源,然后对这些信息进行预处理:文本分词、去停用词、特征选择和特征加权等操作,使网络舆情转为计算机可以使识别并进行运行的计算机语言。最后结合当下分类软件,进行机器学习并通过训练集训练获得最优参数和最佳分类器,用测试机进行分类测试,并进行分类预测。30220
关键词 网络舆情 文本预处理 文本分类 特征选择
毕业论文外文摘要
Title Social public opinion classification research
Abstract
This issue is based on the classification of public opinion information.The paper is reference the developing of the foreign and internal text classification. This paper practiced by Chinese text categorization. In this experiment,the author get the test data from the Blog of xinlang with the tool of API. Then start the experiment with these data to do text preprocess. The steps like delete the stop words, feature selection etc.
Finally, we use the software of classical classification, performed machine learning and optimal parameters and optimal classifier by training set, use the test machine to have a test and class prediction.
Keywords Network public sentiment text preprocessing text classification feature weighting
目 次
1 绪论 1
1.1 研究背景 1
1.2 国内外研究概况 1
1.2.1 国外研究概况 1
1.2.2 国内研究概况 3
1.3 本文主要内容和章节安排 4
2 中文文本分类概述 5
2.1 文本分类技术流程 5
2.2 文本分类模型 7
2.3 本章小结 8
3 文本分类相关技术 9
3.1 分词 9
3.2 去停用词 10
3.3 文本表示模型 10
3.4 特征加权 10
3.5 特征选择 11
3.6 分类评估 12
3.7 本章小结 12
4 舆情网络信息分类实验 13
4.1 舆情网络信息获取 13
4.2 文本分类具体实验 14
4.2.1 分词 14
4.2.2 去停用词 15
4.2.3 特征加权 16
4.2.4 特征选择 17
4.2.5 LIBSVM格式生成 17
4.2.6 样本训练集及建模 18
4.2.7 分类预测 19
4.3 本章小结 19
结 论 20
致 谢 21
参考文献22
1 绪论
1.1 研究背景
信息是人类文化的产物,信息共享有助于人类的发展。通过对信息的获取和分析,有助于人类对事物的认知以及决策。
信息的价值不仅在于其产生的因果,更多的是在共享过程中,人们对其附加的标注。通过不同的事物,同样的信息内容,却蕴含着不同的信息意义。对于使用信息的人,也更全面的获悉事物的本质,以及更准确的预测。
于2014年,IDC提出的数据显示,在2011年,全世界的网络数据量达到了空前的巨大,大致为1.8万亿GB。同时,IDC还预计由于现代社会信息技术的不断扩展,全世界的数据量将呈现每1.5年翻一倍的趋势发展。预计到2020年,将是现在的50倍;未来十年之内,学习和管理计算机IT专业的人数相比现在最多增加5倍,这与数据量的增长不在一个数量级内,完全失配。另外,IDC还提出由于网络社会的日新月异,未来的电子商务、电子邮件以及多媒体信息会站主导地位。全球已经进入数字化时代,网络大数据将带领我们走进另一个全新的数据时代。 网络舆情分类研究+文献综述:http://www.751com.cn/xinwen/lunwen_25833.html