菜单
  
    15

    4.5 测试结果 16

    4.5.1 查全率统计 16

    4.5.2 查准率统计 21

    4.6 测试结果分析 23

    4.6.1 人名抽取 23

    4.6.2 时间抽取 24

    4.6.3 地名的抽取 24

    4.6.4 机构名的抽取 25

    5 相关改进方案设计 25

    5.1 人名识别 25

    5.1.1 中国人名的识别方法 25

    5.1.2 规则改进 26

    5.2 机构名识别 27

    5.2.1  规则设定 27

    5.2.2 算法设计 28

    6 改进后的系统测评 30

    6.1 测试结果 30

    6.1.1 查全率统计 30

    6.1.2 查准率统计 32

    6.2 测试结果分析 34

    结  论 35

    致  谢 37

    参 考 文 献 38

    1 引言

    随着计算机广泛应用于互联网的高速发展,网络信息不断爆炸式增长。信息的过量增长带来一定负面影响,面对大规模的信息,用户难以找到自己真正需要的信息。信息抽取(Information Extraction)正是在这种背景下产生并发展起来的。在信息抽取领域中,命名实体(Named Entity)是文本中基本的信息元素,是正确理解文本的基础。

    2 命名实体综述

    2.1命名实体的类型

    命名实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等。广义地讲,命名实体还可以包括时间数量表达式等。

    关于命名实体的分类也不是一成不变的,而是发生了一定的变化。由美国国防高级研究计划委员会资助的消息理解系列会议MUC(Message Understanding Conference),从1987年开始到1998年共举行了七届。在1995年9月举行的第六届MUC会议中,引入了命名实体识别评测人物,主要包含中文、英文和日文等三种语言的评测,1998年召开的MUC-7中命名实体被分为人名、地名、机构名、日期、时间、百分数和货币等七类。随着MUC会议的停止,从2000年开始由美国标准技术研究院组织的内容自动抽取评测会议(the Automatic Content Extraction.ACE)接过了MUC的任务,将信息抽取的研究推到了一个新的高度。ACE技术的研究发展目标是支持不同方式的分类、过滤和选择,通过抽取来呈现文本的内容,因此ACE需要发展自动检测和表现语言的意义的技术,ACE会议基本任务定义了实体检测和识别、数值检测和识别、时间检测和识别、关系检测和识别、事件监测和识别。[1]

    一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

    2.2 命名实体的识别

    命名实体识别的过程通常包括两部分:(1)实体边界识别;(2))确定实体类别(人名、地名、机构名或其他)。

    英语中的命名实体具有明显的形式标志(即实体中的每一个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。与英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。汉语命名实体识别的难点主要存在于:

  1. 上一篇:网络外部性下电子商务网站的用户忠诚测评模型研究
  2. 下一篇:中英文Hashtag标签的比较研究
  1. python+mysql网络习题爬取系统的设计与实现

  2. 神经网络算法在核素识别中的应用研究

  3. 苏州一建集团网络的规划与设计

  4. asp.net网络商城在线购物系统的设计与实现

  5. ASP.net+SQLserver校园新闻管理系统的设计与实现

  6. asp.net+sqlserver新闻管理系统的设计与实现

  7. java局域网络的即时聊天系统设计+源代码

  8. 酸性水汽提装置总汽提塔设计+CAD图纸

  9. java+mysql车辆管理系统的设计+源代码

  10. 乳业同业并购式全产业链...

  11. 十二层带中心支撑钢结构...

  12. 中考体育项目与体育教学合理结合的研究

  13. 当代大学生慈善意识研究+文献综述

  14. 电站锅炉暖风器设计任务书

  15. 杂拟谷盗体内共生菌沃尔...

  16. 大众媒体对公共政策制定的影响

  17. 河岸冲刷和泥沙淤积的监测国内外研究现状

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回