菜单
  
    摘要本文以中文文本分类为基础对网络舆情信息进行分类研究。本文借鉴国外分类发展史与国内文本分类发展现状,着手于当下常用中文文本分类技术,进行分类的实践操作。在实验中,作者首先运用新浪API对网络舆情进行信息扒取成为本次课题的实验数据来源,然后对这些信息进行预处理:文本分词、去停用词、特征选择和特征加权等操作,使网络舆情转为计算机可以使识别并进行运行的计算机语言。最后结合当下分类软件,进行机器学习并通过训练集训练获得最优参数和最佳分类器,用测试机进行分类测试,并进行分类预测。30220
    关键词  网络舆情  文本预处理  文本分类  特征选择
    毕业论文外文摘要
    Title             Social public opinion classification research      
    Abstract
    This issue is based on the classification of public opinion information.The paper is reference the developing of the foreign and internal text classification. This paper practiced by Chinese text categorization. In this experiment,the author get the test data from the Blog of xinlang with  the tool of API. Then start the experiment with these data to do text preprocess. The steps like    delete the stop words, feature selection etc.
    Finally, we use the software of classical classification, performed machine learning and optimal parameters and optimal classifier by training set, use the test machine to have a test and class prediction.
    Keywords  Network public sentiment  text preprocessing  text classification  feature weighting
    目   次
    1  绪论    1
    1.1  研究背景    1
    1.2  国内外研究概况    1
    1.2.1  国外研究概况    1
    1.2.2  国内研究概况    3
    1.3  本文主要内容和章节安排    4
    2  中文文本分类概述    5
    2.1  文本分类技术流程    5
    2.2  文本分类模型    7
    2.3  本章小结    8
    3  文本分类相关技术    9
    3.1  分词    9
    3.2  去停用词    10
    3.3  文本表示模型    10
    3.4  特征加权    10
    3.5  特征选择    11
    3.6  分类评估    12
    3.7  本章小结    12
    4  舆情网络信息分类实验    13
    4.1 舆情网络信息获取    13
    4.2  文本分类具体实验    14
    4.2.1  分词    14
    4.2.2  去停用词    15
    4.2.3  特征加权    16
    4.2.4  特征选择    17
    4.2.5  LIBSVM格式生成    17
    4.2.6  样本训练集及建模    18
    4.2.7  分类预测    19
    4.3  本章小结    19
    结  论    20
    致  谢    21
    参考文献22
    1  绪论
    1.1  研究背景
    信息是人类文化的产物,信息共享有助于人类的发展。通过对信息的获取和分析,有助于人类对事物的认知以及决策。
    信息的价值不仅在于其产生的因果,更多的是在共享过程中,人们对其附加的标注。通过不同的事物,同样的信息内容,却蕴含着不同的信息意义。对于使用信息的人,也更全面的获悉事物的本质,以及更准确的预测。
    于2014年,IDC提出的数据显示,在2011年,全世界的网络数据量达到了空前的巨大,大致为1.8万亿GB。同时,IDC还预计由于现代社会信息技术的不断扩展,全世界的数据量将呈现每1.5年翻一倍的趋势发展。预计到2020年,将是现在的50倍;未来十年之内,学习和管理计算机IT专业的人数相比现在最多增加5倍,这与数据量的增长不在一个数量级内,完全失配。另外,IDC还提出由于网络社会的日新月异,未来的电子商务、电子邮件以及多媒体信息会站主导地位。全球已经进入数字化时代,网络大数据将带领我们走进另一个全新的数据时代。
  1. 上一篇:网络视频90后大学生受众收视调查与分析
  2. 下一篇:用电影剖析都市人杨德昌电影研究
  1. 网络新闻标题批判标题党问题探究

  2. 论电视与网络新媒体融合发展

  3. 微博问政网络环境下政府创新管理的研究

  4. 网络视频贴片广告的投放策略研究

  5. 论网络媒体对突发公共事件的舆论引导

  6. 传播学视野下的网络流言研究

  7. 网络舆情中的高校形象研究

  8. 酸性水汽提装置总汽提塔设计+CAD图纸

  9. 十二层带中心支撑钢结构...

  10. 中考体育项目与体育教学合理结合的研究

  11. 河岸冲刷和泥沙淤积的监测国内外研究现状

  12. 电站锅炉暖风器设计任务书

  13. 杂拟谷盗体内共生菌沃尔...

  14. 当代大学生慈善意识研究+文献综述

  15. java+mysql车辆管理系统的设计+源代码

  16. 大众媒体对公共政策制定的影响

  17. 乳业同业并购式全产业链...

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回