在社会网络中,往往存在一些小团体,小团体内部成员之间关系密切,交互频繁,彼此之间有明确的认同感、相似的价值观念和行为标准,这样的小团体又称为凝聚子群。使用凝聚子群分析方法可以得出网络中存在子群的数量、子群的成员情况以及子群的特点等,反映了社会网络的社会学特征。
为了支持社会网络分析研究,需要构建全面可靠的社会关系网络,使得基于该网络的分析结果可靠并且符合实际。由于意见领袖大都具有话题依赖性,只有很少用户可以在不同主题内都成为意见领袖[4],在话题A中的意见领袖在话题B中并不一定同样是意见领袖。因此,本文选取新浪微博作为数据来源,首先获取某个话题相关的微博数据(微博、转发、评论和微博用户信息等),然后根据这些微博数据所反映的用户之间的关系(转发、评论、@提醒等)构建相应的社会关系网络。为验证该社会关系网络的可靠性,本文对该网络进行初步应用——使用社会网络分析法识别其中的意见领袖。因此本研究实施的步骤如下:首先,编写可靠的网络爬虫工具并抓取某个话题的相关微博数据。其次,分析已抓取的微博数据,识别出微博用户之间的交互行为,构建相应的社会网络。最后,使用社会网络分析法中的意见领袖识别方法发现社会网络中的核心人物,即意见领袖。为了使本研究更具有实用价值,本文实现了微博数据抓取与舆情分析的通用性解决方案——通过对计算机编程,实现微博数据抓取、社会网络构建与社会网络分析识别意见领袖等三个过程自动化,最终形成一套通用的微博舆情自动化抓取与分析系统。因此本研究要解决的主要问题如下:
(1)数据抓取问题。尽管现在新浪微博提供了开放平台API,但是,新浪微博对微博搜索接口有着极大的限制——关键词只能为两#间的话题,即只能搜索某话题下的微博,并且只返回最新200条结果[5]。然而,本文要求抓取从事件发生那一刻开始到事件发展接近尾声或到当前时间的所有重要的(转发数量或评论数量较多)相关微博,因此新浪微博开放平台的搜索API不能满足本研究的需要。另外,本文还要抓取微博的所有转发信息和评论信息,以及所有被涉及到的微博用户的基本信息(昵称,性别,粉丝数,发布微博数,地址,简介等),因此本文涉及到很多web爬虫技术问题。
(2)意见领袖识别问题。在分析微博数据并构建社会网络之后,如何进行意见领袖识别是本文要解决的主要问题之一。一种典型的意见领袖识别方法是通过建立意见领袖指标体系,并通过某些方法(如层次分析法)来为各个指标赋予权重,通过计算意见领袖综合函数值识别重要的网络节点即意见领袖。但是指标的选取主观性大,如何找一个适合的算法来识别意见领袖是本文要解决的问题之一。
下面将分别阐述关于这两个问题的国内外研究现状。
1.3 有关网络数据抓取的国内外研究现状
1.4 有关意见领袖识别的国内外研究现状
1.4.1 意见领袖概念解释
1.4.2 意见领袖识别方法综述
1.5 论文的组织结构
本文共有5节,第1节为引言,主要介绍了本文的研究背景和研究内容,以及国内外研究现状。第2节主要介绍本研究的相关理论与技术——新浪微博JSON API接口、社会网络分析法和PageRank算法。第3节主要介绍新浪微博数据抓取与社会网络关系识别系的统设计与实现。第4节介绍了本文对社会网络关系识别的应用——社会网络的意见领袖识别,根据PageRank算法及微博转发网络的特点提出用于意见领袖识别的WeiboRank算法,以及相关实验结果与分析。第5节为结论,首先对本文工作进行总结,然后提出本研究的不足与改进方向 网络舆情传播中社会网络关系识别(4):http://www.751com.cn/jisuanji/lunwen_16910.html