话题识别与跟踪的基本思想源于1996年,当时美国国防高级研究计划委员会(DARPA)提出需要一种能自动确定新闻信息流中话题结构的技术[2]。国外舆情热点发现研究比较有名的如美国的TDT(Topic Detection and Tracking)研究项目。该项目的初衷是要研究出一些算法,能够发现和归纳来自于数据流中的重要的信息和内容。用以应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。热点事件发现是话题与跟踪技术在实际领域中的应用,因此在热点发现的研究中采用了很多TDT的技术,主要以新闻语料为研究对象,语料聚类后最终计算热点话题时还需将相关的报道参数量化来确定最终结果,量化参数一般有话题的报道频率、话题的分布率、话题的时间属性等[3]。26789
基于新闻热点发现与舆情分析技术在当代社会的巨大需求,论文网相关技术在近年来得到了飞速发展。目前,网络舆情热点发现在实践上的研究主要集中在中文信息处理与数据挖掘领域[4]。在中文信息处理方面,主要是词频统计方式的研究,涉及到的技术有未登录词的识别、中英文分词技术、多文向量空间对文章主题的测度等方面。在数据挖掘方面,涉及到的内容有舆情信息采集、自动分类、自动聚类等。