新浪微博中的话题突变识别与分析研究(5)

（2）先离散时间的方法。具体来说，及时在建模前，先将时间划分成不同的窗口，然后在各个窗口分别处理相应文档并进行拆分，产生随着时间的话题演化过程。Song[13]借助于GibbsSampling[14]抽样提出了一种新的增量LDA模型。AlSumait[15]等人则提出了一种在线的LDA模型（Online Latent Dirichlet Allocation，简称OLDA）。其主要是运用已有的历史数据对学习模型，再结合时间间隔中对应的话题数据运用LDA模型建模，以此表现展现出话题演化的过程。胡艳丽[16]等人也是在OLDA模型的基础上进行话题演化研究分析。
（3）后离散时间的方法。此方法先把文本通过LDA建模抽取话题，然后把这些话题划分在相应的时间窗口内。例如Grillffiths and Steyvers[17]提出的基于后离散时间型的LDA建模方法，先建模抽取出话题，然后分别计算出每个时间窗口内相应话题的强度，再借助这些强度来研究整个话题演化过程中强度变化。
2.3话题突变及识别方法
2.3.1 话题突变定义及特征
（1）定义：话题突变指的是话题在其演化过程中，跟一开始的话题表现出的差异性，具体的差异性表现在两个方面，一个是话题强度上的变化，另一个是话题内容上的的变化。
（2）特征：话题强度上的突变，具体表现的特征是话题关注度的突然增长，即短时间内对于该话题的关注度发生一个跳跃性的变化，大众对于该话题由一开始的漠不关心，到突然间的积极参与和讨论。而话题内容上的突变，具体表现的特征是在不彻底背离话题的条件下，前面一段时间内出现频次较低的相关话题内容在当前时间突然较为频繁的出现，可看做是突发性的热点话题。
目前关于话题突变方面的研究重点关注的是话题内容上的变化，而传统的针对突变话题的识别技术主要有基于聚类的突发话题检测技术和基于特征序列的突发话题检测技术，下文将给出相关介绍。本文中我们则主要研究话题突变的另一个方面，即话题强度上的突变。
2.3.2 基于聚类的话题突变识别
突发话题的识别将大量的文本按时间排列顺序，借助一定的算法检索出目前网络舆情中的突发话题。ALLANJ[18]和 YANG Yi-ming[19]等人于90年代率先提出了对突发话题识别这方面的研究。其把传统研究中运用的聚类方法加以发展，以时间顺序，用特征词向量来表示文本流，第一个文本向量就是第一个话题，然后计算后来的各个文本向量与之前已有话题的相似度（通常由两个向量的余弦值给出），如若计算出的数值超过规定阈值，就将其纳入对应的话题中去，并需要再次计算出表示现有话题的向量；如若小于设定阈值，说明相似度较低，说明其属于一个新话题，而当与新话题的有关的文本数量到达设定的规模阈值时，该话题就可以被称为突发话题。
研究者们为使识别结果更加准确，在接着的几年里继续对此技术加以完善。如LAM W[20]、YANG Yi-ming[21]、KUMARAN G[22]等人侧重完善如何划分特征词，使划分结果更精准，由此保证识别准确性；ZHANG Kuo[23][24] 等人则重点关注特征词的权重计算，为使特征词权重更加符合实际，添加了索引树的模块，进而使检测效率得以提高。
对于新闻报道，基于聚类的检测技术比较适用，但若换成短文本的话则效果不理想。如本文以微博为研究对象，其文本基本是短文本，因此该检测方法并不适用，但该技术中的一些内容如特征词权重的计算方法还是有一定的借鉴意义。
2.3.3 基于特征序列的的话题突变识别
随着研究的不断深入，基于特征序列的突发话题检测技术被部分学者提出用以检测网络中突发话题。其不再以文本为主体，而是以特征词为主题进行相关研究。具体步骤可分为（1）文本预处理，即先对中文语料进行中文分词，再去掉分词结果中的停用词等噪音。（2）自行定义如何划分时间窗口，具体的时间窗口的个数和大小由用户自己决定。（3）计算特征词权重，特征词权重综合的反映了某词在某个时间窗口的出现情况就体现在特征词权重上。（4）检测出突发话题，理想条件下，一个突发特征词就能够对应产生一个突发话题，然后需要对该特征词与别的任意一个特征词之间的相关度进行计算，能够表示为突发话题的特征词集合其计算出的相关度必须大于预先设定的阈值才行[25]。新浪微博中的话题突变识别与分析研究(5):http://www.751com.cn/xinwen/lunwen_18937.html