2.3.2 决策树算法 8
2.3.3 Rocchio算法 8
3 网络新闻命名实体的研究 9
3.1 新闻实体要素的类型 9
3.2 新闻命名实体的重要性 10
3.3 命名实体的识别 10
3.3.1 基于规则的时间识别 11
3.3.2 人名识别 11
3.3.3 地名识别 12
3.3.4 机构名识别 13
4 基于命名实体的话题追踪 13
4.1 基于命名实体的话题追踪流程 13
4.2 基于命名实体的话题追踪实现基础 15
4.2.1 卡方统计量 15
4.2.2 向量空间模型 16
4.3 基于命名实体的话题追踪方法的分析与改进 17
4.3.1 基于命名实体的话题追踪的优势 17
4.3.2 话题追踪方法改进的设想 17
4.4 本章小结 19
结 论 21
致 谢 22
参 考 文 献 23
1 引言
1.1 研究背景和意义
随着互联网的出现,信息的传播速度、信息的采集和规模都达到了一个空前的状态,我们正处在一个信息爆炸的时代,汹涌而来的信息有时候让人无所适从。
新闻信息是人们较为关注的一类信息,也是网络上比较常见的一类信息,在网页中占有很大的比例。由于新闻报道对时间比较敏感,增长速度比较快,时效性也比较强,随着时间的推移网络上会涌现出现大量新的讯息,旧的信息会湮没在新的信息中。因此,针对某一新闻事件,从海量的新闻信息中获取相关报道并形成新闻事件流成为了关注的焦点,于是网络新闻话题追踪技术就产生了。
网络新闻话题追踪技术是追踪话题动态发展的一项信息智能获取技术。众所周知,与一个话题相关的信息常常是分散在不同的时间节点和信息源的,而话题追踪技术能够有效地将这些信息聚集组织起来,形成一个整体。就具体应用情况而言,比如,对于金融工作者,他需要在第一时间了解任何可能会引起股市波动的事件;对于国家安全情报工作者,他们必须时刻关注着任何与国家安全话题相关的事件,利用话题追踪技术可以随时获取某一话题相关的所有新闻信息,发现事件整体的动态和趋势。
1.2 新闻话题追踪的发展现状
1.3 基本概念
1.3.1 命名实体
命名实体是文本中基本的信息元素,也是正确理解文本的基础。狭义的讲,命名实体是指现实世界中那些具体或者是抽象的实体,如人、地点、公司、组织等,通常也是有唯一的标识符,比如人名、地名、公司名等。而广义的讲,命名实体还包括时间、数量表达式等等。
1.3.2 话题
所谓话题就是一个核心的事件或者活动,也可以是与这个核心事件或者活动直接相关的事件或者活动。而这个事件或者活动通常是由于一些原因导致在特定的时间和地点发生,会涉及到一些人物,会导致一定的结果。因此,简而言之话题就是若干个对于相关事件的报道的集合。比如“波士顿爆炸案”就是一个话题,这个话题涉及了爆炸案嫌疑人、爆炸案中中国留学生一死一伤、爆炸事件救援行动、美国国会降半旗悼念死者等等一系列相关事件和活动。来~自^751论+文.网www.751com.cn/