下面具体介绍一下每个步骤的实现情况:
预处理过程中最关键的就是中文分词,因为识别结果的准确与否与之直接相关。而目前突发话题检测中文本预处理普遍使用的是中科院的中文分词系统。
在定义时间窗口的环节中,窗口大小的设定是一个关键。窗口定义过大的话会造成突发检测的敏感度不够,窗口定义过小的话则会造成遗漏。它这都会在很大程度上影响话题检测结果的准确性。通常情况下,文本流会在检测系统中需要被划分成特征序列模型,而现在总的来说有三种特征序列模型,即快照模型、界标模型和滑动窗口模型。其中快照模型针对数据库中已有的微博数据设定s与r两个时间戳,然后把内部数据平均分成数个时间戳,表示为{ , ,……, , };其中特征字 k 在窗口 s 内的权重用 来表示。界标模型中将用户选定的时间窗口至目前窗口作为时间段,表示为{ , ,……, , };而在滑动窗口模型里面,固定一个滑动窗口个数 w_num ,再从目前位置向前统计w_num 个窗口,一次选择出实验数据,表示为{ , ,……, , }。
目前特征词权重的计算方法主要有基于特征词在所有文本中出现的频次和基于特征词在文本中的出现的位置来赋予不同的权值。前者会给出现频次较高的特征词赋予更高的权值,常见的代表算法有在传统媒体中广泛应用的的 TF-IDF 算法。而后者会将处于文本重要位置的特征词给予更高的权值,如新闻报道中,赋予标题中出现的特征词更高的权值,微博网络中,更高等级用户所发布微博中的特征词会被赋予更高的权值,同样在博客网络中,位于帖子和回帖中的同一个特征词也会拥有不一样的权重赋值。
关联度的计算算法则主要有基于特征词时间序列的相似度计算和基于特征词在目前窗口内的文档重合度计算。前者重点强调对两个特征词的相似度计算,具体就是表示这两个特征词的特征序列的相似度计算。相比基于特征词时间序列的计算方法主要是计算两个特征词的特征序列之间的相似度(一般情况下由向量余弦给出),基于特征词在当前窗口内的文档重合度计算则重点强调对两个特征词在同一个文本中出现的可能性大小进行计算。
前面对基于特征序列的突发话题检测技术进行了一定的介绍,概括了其核心思路与具体操作方法。近几年来众多研究者们在此基础上结合聚类方法加以完善,使其检测效率得以不断提高。下面就对目前关于突发检测的最新研究思路及取得的成果进行一定的介绍。
Wang X[26]等人在2007年设计了一个用以识别规定时间范围里突发特征词的规则化的混合模型,在此基础上,创造出一种新型算法来实现基于特征词时间序列的突发话题识别。2007年Chien Chin Chen[27]等人提出了一种基于生命周期的老化理论模型,并用老化理论来描述有序事件的生命周期。在对single-pass算法加以完善的前提下,Lappas, T[28]等人于2009年设计了一种在检索与排序时识别突发特征的有效算法。Michael Mathioudakis[29]等人于2010年构建出一个用于检测tweets流中频率异常高的的突发词(burst keywords)的“Twitter Monitor”系统。2010年Mario Cataldi[30]针对Twitter研究出来一种新的算法进行突发话题检测。2010年Tushar Rao[31]以一个城市的用户为对象,统计出他们所发布信息传播的快慢,然后结合影响力分析给用户排列顺序,最终算出消息传播的速度。2011年Toshimitsu Takahashi[32]等人,设计出一种基于链接的突发检测模型来检测微博突发话题。年崔争艳[33]于2010年设计出一种基于语义的文本处理方法。陈友[34][35]在2010年设计出一种新的话题发现模型,其基于对噪音的过滤,同时能够查找到与话题有关的用户社区。2010年林达真[36]等人针对博客网络设计出了一种基于时间的突发话题检测算法。 新浪微博中的话题突变识别与分析研究(6):http://www.751com.cn/xinwen/lunwen_18937.html