毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

网络新闻文本中的命名实体自动抽取研究(6)

时间:2021-05-04 17:15来源:毕业论文
其中,1、4增加了地名识别难度,3、7可能使候选地名产生交叉歧义,2、5、6使部分地名边界模糊,8则有助于地名识别。 3.3.3 机构名的特点 机构泛指机关、团体

其中,1、4增加了地名识别难度,3、7可能使候选地名产生交叉歧义,2、5、6使部分地名边界模糊,8则有助于地名识别。

3.3.3 机构名的特点

机构泛指机关、团体或其企事业单位,包括学校、公司、医院、研究所和政府机关等。机构名称是专有名词的一个子集,数目也非常庞大。单其中的一小类——大学名称就数以万计。最近由香港建筑与城市出版社出版的仅涉及中国中央和省市两级的《政府机构名称》就长达一千多页。此外,与人名地名相比,机构名称这类专有名词还很不稳定,随着社会的发展,新机构不断涌现,旧机构不断被淘汰、改组或更名。再加上机构名称的组成还没有国家统一规范。这些都说明机构名称的自动识别与分析是一个很值得研究的问题,对中文输入、机器翻译和人机对话等自然语言处理领域都具有相当大的实用价值。文献综述

从语言学角度来看,机构名称是具有许多特征的专有名词,其构成有一定的规律可循。同人名、地名等其他专有名词一样,机构名称还常常带有物理标记,有利于计算机自动识别与分类。

在形式上,中文机构名称的构造是“W+G”,其中“W”代表词,G是机构称呼词。也即,机构名称就是由一个或一个以上的词加上表示机构称呼的名词(如“大学”、“公司”、“研究所”等)组成的。前者是后者的前修饰词,即定语,后者是中心词。所以,机构名称从宏观来看是一个偏正式复合名词,从其内部结构看又可视为一类特别的偏正式名词短语。

相比普通的名词,机构名称结构更为松散灵活,所以通常名称较长,从三四字到十几字不等,有时甚至达到几十个字,因此在识别时常常造成将一个整体名称拆分识别的现象;但同时,机构名右边一般的偏正名词短语紧凑固定,如不能带助词“的”和从句,短语型修饰语也很少。所以,在语法层面上,机构名是一种介于一般偏正复合名词和一般偏正名词短语之间的语言单位。

机构名称的中心语由称呼词承担,属普通名词,为数不多,可以全部收入词典。在语义上,机构称呼词可进一步分类,如:高校类(大学、学院等),科研类(研究院、研究所等)……在本文中不作讨论,下面重点研究机构名称中的修饰语部分。通过对抽取到的网络新闻文本的研究,总结出以下类型:

(1)地名。例如:“南京大学”(南京市),“江苏省委”(江苏省)等

(2)人名。例如:“中山大学”(孙中山)、“图灵研究所”(Alan Turing)。

(3)学科专业、部门系统。如:“电子信息化部”(电子信息化)、“能源开发总局”(能源开发)、“卫生局”(卫生)。

(4)研究、生产、经营等的对象。如:“软件研究所”(软件)。

(5)上述情况的综合。如:“南京理工大学”(南京,理工)、“长江实业房地产公司”(长江,实业,房地产)

(6)大机构、团体、组织和职业的名称。如:“中国人民大学”(中国人民)、“中国科学院计算机技术研究所”(中国科学院)。

(7)专造的机构名。如:“复旦大学”(复旦)、“协和医院”(协和)。

(8)创办、工作方式。如:“某某集团/股份公司”。来~自^751论+文.网www.751com.cn/

构成一个机构名称的各种部件词,除自身需具备一定的语法语义“资格”外,它们之间的相互联系也应满足一定的条件。例如:“南京理工大学”是标准的机构名,但“理工南京大学”却没有这种用法。加之,机构名称的各种部件词有的是必选的,有的是任选的,有的最多只能出现一次,有的则能出现多次。经分析总结,发现全程机构名称的组织规律大体上是(引用): 网络新闻文本中的命名实体自动抽取研究(6):http://www.751com.cn/jisuanji/lunwen_74783.html

------分隔线----------------------------
推荐内容