网络新闻文本中的命名实体自动抽取研究(2)

4.5 测试结果 16

4.5.1 查全率统计 16

4.5.2 查准率统计 21

4.6 测试结果分析 23

4.6.1 人名抽取 23

4.6.2 时间抽取 24

4.6.3 地名的抽取 24

4.6.4 机构名的抽取 25

5 相关改进方案设计 25

5.1 人名识别 25

5.1.1 中国人名的识别方法 25

5.1.2 规则改进 26

5.2 机构名识别 27

5.2.1 规则设定 27

5.2.2 算法设计 28

6 改进后的系统测评 30

6.1 测试结果 30

6.1.1 查全率统计 30

6.1.2 查准率统计 32

6.2 测试结果分析 34

结论 35

致谢 37

参考文献 38

1 引言

随着计算机广泛应用于互联网的高速发展，网络信息不断爆炸式增长。信息的过量增长带来一定负面影响，面对大规模的信息，用户难以找到自己真正需要的信息。信息抽取（Information Extraction）正是在这种背景下产生并发展起来的。在信息抽取领域中，命名实体（Named Entity）是文本中基本的信息元素，是正确理解文本的基础。

2 命名实体综述

2.1命名实体的类型

命名实体是指现实世界中的具体的或抽象的实体，如人、组织、公司、地点等。广义地讲，命名实体还可以包括时间数量表达式等。

关于命名实体的分类也不是一成不变的，而是发生了一定的变化。由美国国防高级研究计划委员会资助的消息理解系列会议MUC（Message Understanding Conference），从1987年开始到1998年共举行了七届。在1995年9月举行的第六届MUC会议中，引入了命名实体识别评测人物，主要包含中文、英文和日文等三种语言的评测，1998年召开的MUC-7中命名实体被分为人名、地名、机构名、日期、时间、百分数和货币等七类。随着MUC会议的停止，从2000年开始由美国标准技术研究院组织的内容自动抽取评测会议（the Automatic Content Extraction.ACE）接过了MUC的任务，将信息抽取的研究推到了一个新的高度。ACE技术的研究发展目标是支持不同方式的分类、过滤和选择，通过抽取来呈现文本的内容，因此ACE需要发展自动检测和表现语言的意义的技术，ACE会议基本任务定义了实体检测和识别、数值检测和识别、时间检测和识别、关系检测和识别、事件监测和识别。[1]

一般来说，命名实体识别的任务就是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。

2.2 命名实体的识别

命名实体识别的过程通常包括两部分：（1）实体边界识别；（2)）确定实体类别（人名、地名、机构名或其他）。

英语中的命名实体具有明显的形式标志（即实体中的每一个词的第一个字母要大写），所以实体边界识别相对容易，任务的重点是确定实体的类别。与英语相比，汉语命名实体识别任务更加复杂，而且相对于实体类别标注子任务，实体边界的识别更加困难。汉语命名实体识别的难点主要存在于：网络新闻文本中的命名实体自动抽取研究(2):http://www.751com.cn/jisuanji/lunwen_74783.html