很多学者在主题挖掘研究基础上进行了扩展研究。郑建兴等人提出一种友邻-用户模型进行微博主题推荐,以用户的关注关系和微博内容,计算用户间认知关系,发现用户的友邻集,利用友邻集将目标用户模型的主题兴趣集扩展为友邻主题兴趣集,扩展用户模型的主题兴趣,根据算法实现微博等社交网络的邻域优化推荐[8]。唐晓波等人针对文本聚类和LDA主题模型的互补特征,考虑了微博特殊文体与短文本聚类效率问题,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了一种新的针对微博的主题检索模型,该方法能有效地划分微博文本,并能清晰地挖掘类簇中的潜在主题[9]。
除去微博外,论坛等社交媒体也不乏各种主题相关研究。陈友、程学旗和杨森提出了一种高质量主题发现框架,利用特征抽取的技术提取内容特征,利用结构特征可以很好地去发现高质量的主题[10]。高俊波等人针对传统的在线论坛中有影响力主题计算方法的不足,计算词语在回帖传播链上的影响力,提出一种对有影响力词语聚类的方法,来发现在线论坛中具有潜在影响力的主题[11]。
另外,近来的一些新的相关研究成果对主题研究方面具有重要意义。Guodao Sun等人提出利用EvoRiver进行可视化主题竞合分析,通过一个基于时间的可视化工具EvoRiver让用户探索并发主题竞合相关的相互作用,检测动态演变的图案,以及它们的主要成因[12]。Shixia Liu等人提出TopicPanorama的思想,提出一种可视化分析方法,用来源不同的主题生成全景图,高效地交互分析这些共有的或独有的主题[13]。
2 新闻主题研究现状
新闻是指通过报纸、电视台、互联网、电台等媒体传播的信息的一种称谓。就广义而言,除报刊、广播、电视上的评论与专文之外的常用文本都属于新闻,如消息、特写、速写、通讯等。狭义的新闻专指消息,消息是指用概括的叙述方式,简明扼要、迅速及时地报道国内外新近发生的、有价值的事实。
目前,新闻主题研究主要集中在主题挖掘与主题分类。谭胜提出基于主题描述模型主题相关性分析方法,判断网页和某个主题间的相关性,引入主题加窗策略与动态修正主题描述实例方法来提高主题探测的效率与质量,并用实例证明:该主题探测方法可准确的将当前的重大热点新闻主题反映出来[14]。李峰在《新闻线索与主题探测》一文中提出了混合连接算法,在每条线索中使用NMF聚类得到包含的主题,计算主题相关性,根据主题包含的新闻数量与相关主题数,推出主题的重要度[15]。戴依若根据流行病新闻的特点和数据挖掘的特殊性,提出了一种新型的专用新闻主题分类方法,根据流行病的新闻内容总结出流行病新闻主题列表,并制作了相应流行病主题词典[16]。此外,陈冠男还针对目前手机端与PC端主题差别进行了研究,通过分层调查的方式得到结果:手机客户端和PC端新闻门户对不同类型的新闻注意力指数有着较明显的差异,手机新闻客户端更关注负面民生新闻、国际新闻与软新闻,而PC端新闻门户更多关注国内政治新闻,并且在新闻主题选择上更加保守和谨慎。新闻自身质量、受众浏览新闻行为差异和新闻政策环境是这些差异产生的主要原因[17]。
总体来讲,无论是在社交媒体还是新闻中,社会舆情主题研究主要都还停留在主题发现与主题分类方向,利用LDA或基于LDA的主题模型,进行主题挖掘。近年来,一些话题通过微博、门户网站等快速传播而引发全民讨论的案例引起大家的关注,研究者们开始关注主题在整个事件中的作用和与评论者的关系,例如主题演化相关研究。本课题就将在目前主题相关研究前提下,进一步研究社会舆情主题,探究舆情传播过程中传播主题与评论主题的共振与偏离,并运用实证来证明结论。 社会舆情主题研究现状概况(2):http://www.751com.cn/yanjiu/lunwen_27531.html