菜单
  

    摘要:本文首先从理论层面上对汉语分词、文本分类进行概述,然后介绍网络爬虫的基本理论,并阐述基于网络爬虫的页面爬取工具对新浪微博数据的抓取;其次运用相关的算法对之前在新浪微博上抓取的几万条文本数据进行分词、提取文本特征项以及关键词转化为向量空间维数的处理,接下来采用基于SVM支持向量机模型的数据挖掘方法实现了社会舆情信息的处理和归类。最后将分类处理结果进行分析,凸显出基于数据挖掘技术在社会舆情信息分类处理方面的可行性和优越性。64308

    毕业论文关键词  数据挖掘  社会舆情  文本分类  

    毕 业 论 文 外 文 摘 要

    Title    Social public opinion classification research                    

    Abstract

    This paper firstly provides an overview to the theory of Chinese word segmentation and text classification. Then it introduce the basic theory of web crawler and the Sina microblog data capture by web crawler crawling tools. Secondly,in order to attain the result of text data segmentation ,extraction of text feature item and keywords transform into dimension vector space, we use the related algorithm to deal with the Sina microblog data that are captured before. In addition, using the data mining method based on SVM model to achieve the social public opinion information processing and classification. Finally, we analyze the results of the data classification, and highlights the feasibility and superiority in the social public opinion information classification based on data mining technology.

    Keywords: Data Mining  Social public opinion  Text Classification

    1 绪论 1

    1.1课题背景 1

    1.2 网络舆情研究的技术需求 1

    1.3 网络舆情研究的发展现状 2

    1.3.1 网络舆情分析 2

    1.3.2 文本数据分类研究的发展现状 2

    1.4 本文研究的主要内容 3

    2.舆情信息分类研究的基本理论研究 5

    2.1汉语分词 5

    2.2 文本分类 6

    3 舆情信息数据的获取与处理 9

    3.1新浪微博简介 9

    3.2 舆情信息数据的获取 9

    3.3 文本信息处理系统的构建 10

    3.4 开发工具及系统框架 11

    3.5 TF*IDF关键词特征加权算法 11

    3.6 系统关键技术实施 13

    3.6.1 运用中科院分词系统ICTC对文本进行分词处理 13

    3.6.2 运用TF*IDF算法对文本进行关键词选取 14

    3.6.3 关键词转化为空间向量的维数 16

    4.舆情信息数据的检测分类 17

    4.1需求描述及分类工具介绍 17

    4.1.1 需求描述 17

    4.1.2 分类工具介绍 18

    4.2 SVM支持向量机空间向量模型 18

    4.3文本分类系统结构 20

    5. 舆情信息文本分类的结果的分析

  1. 上一篇:中文专业博客的标签质量评估研究
  2. 下一篇:基于案例推理的轨道交通运营智能控制方法研究
  1. jsp+mysql学生选课信息系统设计与实现

  2. Ruby+mysql就业信息管理系统的设计与实现

  3. VB+sqlserver社区医院信息管理系统的设计与实现

  4. java+mysql房地产开发与销售...

  5. VB+sqlserver高校宿舍信息管理系统的设计与实现

  6. java+mysql车票预订信息系统设计与实现

  7. 基于信息技术课程培养初...

  8. 探讨“绿色生态”在都市设计中的体现

  9. 公共服务均等化文献综述和参考文献

  10. 文化旅游主题展示设计广富林十里长街设计

  11. 机器人摩擦焊机头设计

  12. 《简爱》女性主义的象征

  13. 分光光度法测定水溶液中有机酸含量的研究

  14. 圆柱绕流国内外研究现状

  15. 新生代农民工培训现状分析

  16. 合肥老乡鸡连锁餐饮企业的经营策略探析

  17. 带式输送机技术英文文献和中文翻译

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回