摘要话题检测与追踪是一种检测新出现的话题并追踪话题发展动态的信息智能获取技术。该技术能把分散的信息有效地汇集并组织起来,从整体上了解一个话题的全部细节以及该话题中事件之间的相关性。本文首先介绍了新闻话题追踪的发展现状,以及该领域的研究所涉及的一些概念。其次,简要介绍了目前常用的话题追踪技术以及命名实体识别技术。为提高网络新闻话题追踪的效率本文提出了一种基于命名实体的网络新闻话题跟踪方法。该方法中利用新闻报道中的几大要素:时间,人物,地点,机构,作为命名实体快速判断新到达报道与历史主体的关系。这种发法充分考虑了命名实体对于新闻报道的重要性,利用命名实体构建文本向量,结合改进的KNN算法,实现网络新闻话题的追踪。66772
毕业论文关键字 命名实体 话题追踪 K近邻算法 网络新闻
毕 业 论 文 英 文 摘 要
Title Research on internet news topic tracking based on named entities
Abstract
Topic detection and tracking is an intelligent information acquisition technology which detects and tracks the development of a new topic.
The technology can effectively collect the scattered information and organize an overall understanding of all details as well as the correlation between the topic events. This paper firstly introduces the current development of the news topic tracking and some concepts in the field of study involved. Secondly ,briefly introduces the common topic tracking technology and the named entity recognition technology.This article proposes a network news topic tracking method based on named entities to improve the efficiency of tracking the network news topic. The method uses several major elements of news reports: time, figure, site, agency, as named entities ,to quickly determine the relationship between a new reach report and the subject of history. This method takes full account of the importance of named entity for news, using named entity to construct text vector, combining with improved KNN algorithm to realization of network news topic tracking.
Keywords named entity topic tracking KNN algorithm internet news
目 次
1 引言 1
1.1 研究背景和意义 1
1.2 新闻话题追踪的发展现状 1
1.3 基本概念 2
1.3.1 命名实体 2
1.3.2 话题 2
1.3.3 事件 3
1.3.4 话题追踪 3
2 网络新闻话题追踪概述 3
2.1 基于聚类的方法 3
2.1.1 基于层次聚类的方法 4
2.1.2 基于划分的方法 4
2.1.3 基于密度的方法 5
2.1.4 基于网格的方法 5
2.1.5 基于模型的方法 6
2.1.6 算法的分析与比较 6
2.2 基于查询向量的方法 7
2.3 基于分类算法的方法 7
2.3.1 KNN算法 7 基于命名实体的网络新闻话题追踪研究:http://www.751com.cn/xinwen/lunwen_74786.html