1.3.3 事件
事件是指具体的活动,通常事件的表示有具体的时间、地点等等[3],一个话
题是有多个事件组成的,一个事件就是某个话题的一个实例。比如说“2013年4月15日美国波士顿马拉松终点线附近发生爆炸”是一个事件,“美国波士顿爆炸案”是一个话题。
1.3.4 话题追踪
话题追踪就是通过一定的方法去监控新闻媒体流,从而发现与某一个已知的事件相关的后续报道。通常事先要给出一个或者几个关于已发生的事件相关的报道,称之为训练报道,通过这几篇训练报道可以得出一个已知话题,在监控新闻媒体流的过程中,利用之前的训练报道来判断数据流中的每一篇报道与已知话题的相关性,最终来实现话题追踪。因此,新闻话题追踪实际上就是判别新闻事件报道文本之间的相似度和相关度。
2 网络新闻话题追踪概述
目前,网络新闻话题追踪方法的研究主要分为三个方面,一是基于聚类的话题追踪,二是基于查询向量的话题追踪,三是基于分类的话题追踪 [4]。本章就这三个方面的研究状况做一个概述。
2.1 基于聚类的方法
文本聚类是实现话题追踪的关键技术,将同类话题的文本归为一类,实现对于某个话题新闻数据流的后续追踪。目前,实现中文文本聚类的算法种类繁多,主要有一下几类:基于层次聚类的方法、基于划分的方法、基于密度的方法、基于网格的方法、基于模型的方法。论文网
2.1.1 基于层次聚类的方法
话题跟踪技术已是国际上研究的热点问题,研究人员将自然语言处理技术与信息检索技术相结合提出了一种基于层次聚类的网络新闻话题追踪,经过大量实验的检测,这种方法被证明在话题检测与追踪方面可以取得良好的效果