(1)话题(Topic):话题一方面是指一个根源事件或者行为,另一方面是指一切跟其有直接性联系的事件或者行为。
(2)事件(Event):事件指的是在某个时间和地点因一定条件及原因造成的某个特例,同时也许会产生一些必然性后果。
(3)报道(Story):报道本身属于一种新闻片段,但其跟话题有着密切的联系,通常一篇报道会由两个及以上的各自表述事件的子句组成。
(4)话题识别:话题识别的过程可以简单归纳为将新闻信息进行聚类归纳的过程,即在系统中存在各种不一样的话题簇,如若新的新闻报道属于已有话题簇则归入进去,否则需要另外建立一个新的话题簇将其归入。由于系统不能提前知晓话题簇需要的具体数量及建立话题簇的具体时间,该聚类过程只能向前看。与一般聚类中对数据进行全方位聚类不同,话题识别中的实行增量聚类。因此,最后决断前不可以或者只可以往前看特定数目的文本或报道[3]。
基于话题识别中的聚类过程是按照增量方式进行的,该识别过程总结下来主要包括对产生的新事件进行识别和将与之前话题相关的新闻划入同类话题簇中去这两个阶段。可以看出,两个阶段存在密切联系,但也有各自鲜明的特点。前者就是识别出产生的新事件,而话题识别的整个过程就是对此加以延伸。话题识别任务更加强调将新的新闻报道最终划入相应的话题簇中,不在乎是否能准确识别出关于某话题的第一次报道,而在新事件识别中则不同,其需要找出引出某话题的首篇报道。
话题识别在具体研究中通常表现为对事件的聚类,而增量k-means聚类、agglomerative 聚类、单遍聚类等是比较常用的几种聚类手段。许多公司相继开发出各自的话题识别系统,其中IBM公司的一个系统取得了一定的成功,其采用双层聚类的方法,在对报道进行相似性比较时参考了Okapi公式,先把新闻临时放进各种小话题簇中,再在一段时间之后放入到最后的话题簇中去。
2.1.2 话题识别与追踪的任务
话题识别与追踪研究的基础任务主要可以总结为以下5个方面,即报道切分任务(Story Segmentation Task,SST)、话题跟踪(TopicTracking,TT)、话题识别(Topic Detection,TD)、新事件的识别(New Event Detection,NED)、报道关系识别(Story Link Detection,SLD)。而话题识别与追踪又可以分为两个方面,即话题识别(TD)和话题跟踪(TT)。其中,话题识别的任务主要是对未知的话题以及相关的新闻报道进行识别,判断是否属于系统中已有的话题簇,如若属于则归入话题簇中去,否则需要建立一个新的话题簇。不难看出其基本属于一个对新闻报道数据进行聚类研究的过程[2]。而在话题追踪的过程中,一般先给出若干与某一话题相关的新闻报道,然后对新闻信息进行监测,查找出里面与该话题相关的新报道。其原理与检索信息中基于例子的查询以及过滤信息和挖掘数据中对新闻数据流的分类研究有些类似。
2.1.3 话题识别与追踪的关键技术
目前关于话题识别与追踪技术方面的研究工作主要包括话题模型的建立、特征项的选择、话题相似度的计算以及话题聚类。
(1)话题模型的建立。研究话题识别与跟踪技术的基础就是建立话题模型。而空间向量模型以及语言模型等是目前比较常用的几个话题模型,其中的语言模型的设计思路是对某个句子中相关特定词序列的出现概率进行计算[4]。
(2)特征项选择。用字、词和词组等来构成文本的特征项,给予这些特征项各自的权值来反映他们各自的重要性,即重要程度大小与其权值大小成正比。特征频度、布尔权值、TF-IDF、特征频度等是现在比较流行的几种权重计算方法[5]。 新浪微博中的话题突变识别与分析研究(3):http://www.751com.cn/xinwen/lunwen_18937.html