一般的词典都是按照单词拼写的原则进行组织。在线词典跟传统的纸张词典不同,允许使用者从不同的途径去访问词典信息。传统的词典是通过提供给用户关于词语的信息来帮助用户理解那些他们不熟悉的词语概念。WordNet跟同义词词林相似的地方是它也是以同义词集合作为基本建构单位进行组织。但不仅仅是用同义词集合的方式罗列概念,同义词集合之间是以一定数量的关系类型相关联,这些关系包括上下位关系、整体部分关系、继承关系等。同时WordNet跟传统的词典相似的地方是它给出了同义词集合的定义以及例句"在同义词集合中包含对这些同义词的定义。对一个同义词集合中的不同的词,分别给出适合的例句来加以区分。所以是传统词典与同义一词词典的融合。
不同句法司类中的语义关系类型也不同,比如尽管名词和动词都是分层级组织词语之间的语义关系。但在名词中,上下位关系是“语义”关系,而动词中是“方式”关系动词中的“继承”关系类似于名词中的“整体部分”关系。
WordNet是基于同义性和反义性来描述词语和概念之间的各种语义关系类型的。由于词典的重点不是在文本和话语篇章水平上来描述词和概念的语义,因此并没有包含指示词语在特定的篇章话题领域的相关概念关系。例如,WordNet中没有将racquet(网球拍)、ball(球)、net(球网)等词语以一定方式联系到一起。
WordNet中几乎没有句法信息,因为它是作为一个语义知识库而构建。但是,词典也包含了形容词的部分句法约束信息。同时句法对动词而言最为重要,可以通过动词的名词论元、介词短语以及语素组成等不同形式加以次范畴化。目前,的每个动词同义词集中包含了及物性基本信息,知识工程以及推理方面的应用系统特别受益于动名间关系的信息,这些动词的句法信息和语义信息基本都是手工编制而成。
为了提供词语的语境信息,普林斯顿(Princeton)认知科学实验室开发了一个语义检索工具,该工具将文本和词库组成一个整体的数据库,从而使文木中的单词跟词库中合适的意义相关联。这样的语义检索工具,既可以看作是这样一个文本,其中的单词带有句法和语义信息的标注也可以看作足一个词库。其中的词条都配有指示义项用法环境的例句。
意义排歧对许多应用来说都是关键因索,比如信息检索就是这样的应用领域。在词语匹配方面,WordNet中词语表达方式不利于有效地分辨语义概念,只有先依靠手工选择了概念,使得要查找的词语的意义已知,然后语义关系信息才对提高检索结果有帮助。
WordNet中的语义信息也可用于描述“词汇树”,此概念源于考虑不同语境关系的信息相关性后修正的“词汇链”。“词汇链”是在基于名词的语义关系构成的上下文中的名词的序列,在词汇链的连接强度评估方法中,词语间语义距离越大,则用词错误的可能性也越大。
1.4本文的主要工作与论文的组织结构
本文情感词词典的建立经历了一个相对漫长的过程,词典原始雏形是由褒义词词典 [17] 、贬义词词典[18]和学生褒贬义词典[19]以及Hownet情感词等资源融合而成,Hownet作为一个常识知识库,为自然语言理解提供了一个新的研究资源。本文所做的情感判别的研究工作主要是以Hownet中的词为基础的。然后通过对数码相机的语料库进行分析、综合,得到本文的情感数据库。
2 Hownet分析
2.1 概述
按照Hownet的创造者一一董振东先生自己的说法:Hownet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。 基于Hownet的情感词典构建研究(4):http://www.751com.cn/jisuanji/lunwen_9268.html