摘要本文采用网络爬虫技术抓取新浪微博数据(包括微博、转发、评论和微博用户信息等),通过分析这些微博数据,识别出用户之间的转发、评论、@提醒等关系并构建相应的社会网络,为了使该过程能够自动化完成,本文在Java平台实现了微博抓取数据与设网络关系识别系统。为验证该系统的可用性,本文对其构建的社会网络进行应用研究——根据PageRank算法提出用于识别意见领袖的WeiboRank算法,并把该算法应用与该社会网络的意见领袖识别,最终取得了较好的识别效果,同时说明了该系统的可用性。23714
关键词 社会网络 微博抓取 PageRank 意见领袖
毕业论文外文摘要
Title The Identification of The Social Network Relationship In The Spread Of Public Opinion
Abstract
In this paper ,I crawl Microblog data(including Microblog,forwarding, comments and Microblog user’s information,etc) by using webspider technology.I also identified forward relationship,comment relationship and @ remind relationship between users By analyzing these Microblog data, and built the corresponding social network.In order to automate this process,this paper developed Microblog data capture and relationship identification system in the Java platform.In order to verify the usability of the system, this paper applied research to the built social networks--using WeiboRank algorithm,which is modified from the PageRank algorithm identifited the opinion leaders in the social networks.The results turned out good,that is,this system is reliable.
Keywords Social Network Microblog Crawl PageRank Opinion Leader
目次
1 引言 1
1.1 研究背景与意义 1
1.2 研究内容与问题 2
1.3 有关网络数据抓取的国内外研究现状 4
1.4 有关意见领袖识别的国内外研究现状 5
1.4.1 意见领袖概念解释 5
1.4.2 意见领袖识别方法综述 5
1.5 论文的组织结构 7
2 相关理论与技术 8
2.1 网络数据抓取的相关理论与技术——以新浪微博为例 8
2.1.1 新浪微博及其功能 8
2.1.2 微博的高级搜索 10
2.1.3 新浪微博非开放平台部分JSON API 12
2.2 意见领袖识别的相关理论研究 15
2.2.1 社会网络分析法 15
2.2.2 PageRank算法简介 16
3 新浪微博数据抓取与社会网络关系识别系统设计与实现 20
3.1 需求分析 20
3.2 系统概念设计 20
3.3 数据库设计 24
3.3.1 微博数据存储设计 24
3.3.2 微博用户关系类数据存储设计 26
3.3.3 系统运行日志类数存储设计 26
3.4 技术选型 27
3.5 系统详细设计与实现 28
3.2.1 任务调度模块 29
3.2.1 抓取模块 29
3.2.2 解析模块 30
3.2.3 关系抽取模块 31
3.2.4 存储模块 32 网络舆情传播中社会网络关系识别:http://www.751com.cn/jisuanji/lunwen_16910.html