(3)计算话题相似度。话题识别与追踪中模型建立是前提,而计算话题相似度是关键。借助于话题相似度的计算,将其归类,然后我们可以以此来判断其属于先前已经有了的旧话题,还是属于刚刚生成的新话题。
(4)话题聚类。话题聚类的过程属于一个机器自行进行无监督学习,并实现文本划分以及整理的过程[6]。该过程基于文本的相似度判断文本间属于同类文本还是不同类文本。
2.1.4 话题识别与追踪的技术应用及发展趋势
虚拟社区如论坛、博客等目前已经随着网络平台的发展日趋流行,成为人们进行信息获取、传播和分享的重要工具。研究者们基于这样的大环境也加强了该领域的话题识别与追踪的研究,并取得了一定进展。如对于BBS帖子字数少,语言随意的特点,蒋凡等人在传统技术基础上加以改进,研究出一种新的TD方法,该方法主要是先计算出词语在回帖中的影响力,然后对其中影响力大的词语进行聚类。该方法很好的弥补了过去技术的不足,有效提高了对网络中重要话题信息的提取效率、及准确率[7];而在Blog中热点话题发现的研究里,时明达等人也在现有有技术的基础上,联系起内容相关性,运用语义分析,不仅关注评论的多少,而且借助评论与话题内容的相关度分析以及评论的语义来计算话题的热度,从而最终实现热点话题发现[8]。
未来关于话题识别与追踪技术的研究将会加强对话题本身特征的关注,并综合运用各种方法。现在关于话题识别与追踪技术的研究中整体系统性能不高,主要就是由于话题自身的特性未能在研究中得到充分的利用。因此在建立具有语料特性的描述模型,有效结合机器学习与自然语言处理技术以及话题特有的特征提取和信息挖掘技术等方面需要有更加深入的研究。
2.2 话题演化
2.2.1 话题演化概念
话题在其传播的过程中慢慢发生了变化,而这些所谓的变化即为话题的演化(Evolution)。由上文我们知道,事件代表的是在一定时间和地点大声的事情,而话题一般是由某个单独的事件以及与之有直接联系的其他事件共同组成[9]。与生物进化类似,话题的演化具有遗传和变异的特点。其遗传的特点具体反映在话题在具体的传播发展过程中不会彻底背离原先的话题,具备一定的稳定性。而其变异性特点反映在话题的其他因素会随着传播发生变化。
同一话题在其传播过程中会逐渐表现出一定的动态性,不断发展变化,而话题演化衡量的就是这种动态发展。一般的话题演化反映的是话题随着时间产生的变化过程。而随着时间推移,关于话题本身会有两个方面产生变化,一个是话题的强度的变化,如男足世界杯,在世界杯举办期间会受到较大关注,而世界杯过后,关注度就会明显降低。另一个就是话题内容的变化,如在汶川地震期间,人们重点关注灾区的伤亡情况和救援情况,而在地震过后,人们转而重点关注灾区的重建情况。显而易见,在强度方面的的演化反映的是话题被关注的程度的转变,而在内容方面的演化反映的是大众关注重点的变化,对应于先前所说的话题动态变化的特点[10]。
2.2.2 话题演化模型
就话题演化的研究而言,国内外学者基于2003年由Blei等提出的LDA(Latent Dirichlet Allocation)模型[11]进行一定的扩展,开展进一步的话题演化模型的研究。总的来说,相关研究目前基本可以划分为以下三种:
(1)在话题演化的研究中,将时间加进话题的演化模型中去,即时间在话题演化中被表示成连续的变量来进行讨论。2006年Wang[12]等人提出的TOT模型(TopicOver Time)就是基于LDA模型,与时间变量讨论模型相结合创造出来的,其主要借助Γ分布给时间属性生成一个值,并把该值赋给文档中的各个单词新增的时间属性;就那些不知道时间的文档而言,根据分布来预测该文档的可能的时间属性值;而对于已经知道时间属性值的相关文档,可以根据文档预测它的话题分布。此模型重点关注的是强度的演化,而关于内容方面的演化研究不足。 新浪微博中的话题突变识别与分析研究(4):http://www.751com.cn/xinwen/lunwen_18937.html