摘要网络新闻热点发现的主要目的是从海量互联网数据中发现人们感兴趣的热点话题。在海量的新闻文本中,找到内容相似的那一类新闻,如果这类新闻的数量达到一定阈值,便认为该类新闻属于热点新闻。同时,在诸多新闻门户网站,对于热点新闻存在海量的网民评论文本。这些评论文本代表了网民对于当前热点的评价与态度。本课题的目的是面对多个中文新闻门户网站(如新浪、搜狐、网易等),利用计算机自动分析和发现当前的新闻热点问题,并对海量的网民评论进行情感分析与挖掘,构建新闻热点发现与网民舆情分析系统。26789
毕业论文关键词 新闻热点发现 舆情分析 聚类算法 门户网站
毕业设计说明书外文摘要
Title The technology of news hotspot discovery and public opinion analysis based on portal website
Abstract
The main purpose of the news hotspot discovery is to find out the hot topic of interest from the mass Internet data. It can be assumed as a piece of hot news if the number of same news within mass Internet news text is up to a certain limit. These remark texts represent the views and attitudes towards the current hotspot. This project aims to use computer auto-analysis to find out the current hot issues in mass media, targeting at various well-known Chinese news portal websites like Sina, Sohu, NetEase. Based on that, this system can finally dig out and analyze the emotion of Netizens’ remark, and then establish news hotspot discovery as well as public opinion analysis system.
Keywords News hotspot discovery Public opinion analysis Clustering algorithm Portal website
目 次
1 引言 1
1.1 研究背景及意义 1
1.2 国内外相关研究 2
1.3 论文的主要工作及组织结构 2
2 网页信息处理相关技术简介 3
2.1 网页信息获取 3
2.2 网页文本处理 4
2.3 分词与关键字提取 4
2.4 文本的分类与聚类 5
2.5 文本情感分析 5
2.6 数据可视化 5
2.7 本章小结 6
3. 新闻信息的获取 7
3.1 Scrapy网页爬取框架 7
3.2 新闻本体的获取 8
3.2.1 新闻网页来源的特点分析 8
3.2.2 新闻网页获取的具体实现 8
3.2.3 新闻网页的解析与信息提取 9
3.2.4 新闻网页信息的预处理与储存 9
3.3 新闻评论的获取 10
3.2.1 新闻评论来源的特点分析 10
3.2.2 新闻评论获取的具体实现 11
3.2.3 新闻评论的解析与信息提取 12
3.2.4 新闻评论信息的预处理与储存 13
3.4 本章小结 14
4. 新闻热点发现与舆情分析 15
4.1 新闻信息的聚类分析 15
4.1.1 聚类算法的选择 15
4.1.2 聚类算法的具体实现 16
4.2 新闻评论的舆情分析 18
4.3 分析结果的可视化 18
4.4 本章小结 19
- 上一篇:网络隐蔽信道国内外研究现状
- 下一篇:新闻热点发现与舆情分析技术国内外研究现状
-
-
-
-
-
-
-
河岸冲刷和泥沙淤积的监测国内外研究现状
当代大学生慈善意识研究+文献综述
杂拟谷盗体内共生菌沃尔...
java+mysql车辆管理系统的设计+源代码
酸性水汽提装置总汽提塔设计+CAD图纸
大众媒体对公共政策制定的影响
乳业同业并购式全产业链...
十二层带中心支撑钢结构...
中考体育项目与体育教学合理结合的研究
电站锅炉暖风器设计任务书