1.2国内情感词典的相关研究
1.2.1《知网》
《知网》[14]即Hownet,是一个以汉语与英语中词语所表述的概念为对象,以实现揭示词语概念之间以及概念的属性与属性之间关系为目的的词汇知识库。Hownet的最基本的数据库是被人们经常称为知识词典的那个知识库,不过Hownet不仅仅是一部普通意义上的词典,它是一个有着网状结构的系统,不仅可以表征词语,还可以表征词语之间的关系,这也是它与我们所谓的知识词典的最大的不同。知识词典是体系的基本的组成部分。在词典中词语所表示的概念及其描述以一个记录的形式存储,这种存储形式都会包括四项内容。
在中文自然语言处理方面,Hownet的应该十分广泛,起到了很好的基础作用。在Hownet体系中,共用了1618个义原来表征词汇的概念。义原是Hownet体系中最基础的、不用再分割的最小的意义单位,Hownet利用义原对其系统中50220个汉语词语的个概念进行了描述。
Hownet中一个概念并不是简单地描述为一个义原的集合,而是要描述为使用某种专门的“知识描述语言”来表达的一个语义表达式。即描述概念的每个义原所起到的作用是不同的,这也是计算相似度的困难之一。所以基于这种知识结构,Hownet的形式化和规范化程度还有待提高"
1.2.2同义词词林
《同义词词林》[15]的第一版和第二版的词表完全一样,,收词53859条。其中有很多的词已经不常用,成语所谓的罕用词。参照多部电子词典资源,并按照人民日报语料库中词语的出现频度,只保留频度不低于的部分词语,可剔除14706个罕用词和非常用词。经过这样的处理剩下39099个词条。为了满足自然语言处理的需要,这样规模的词典显然很少"哈人信息!检索实验室利用很多语相关资源,投入了大员的人力和物力,经过儿次改版完成了包含77343条词语的语义词典。其按照树状的层次结构把所有收录的词语组织在一起,把词汇分成大、中、小三类。其中大类有12个,中类有97个,小类有1400个。每个小类根据词义的远近和相关性分成若干个词群段落。每个段落中的词语有进一步分成若干个行,同一行的词语要么词义相同,要么词义有很强的相关性。小类的段落可以分为四级,段落中的行可看作第五级分类。这样《同义词词林》就具备了5层结构,如图1,每个分类里词语数量不同,很多只有一个词语,则成为原子词群、原子类或原子结点。不同级别的分类结果可以为自然语言处理提供不同的服务,例如第四层分类和第五层分类在信息检索、文本分类、自动问答等领域得到应用。
《同义词词林》提供三层编码,即大类用大写英文字母表示,中类用小写英文字母表示,小类用二位十进制整数表示。《同义词词林》中词语的分类和存储基本上都是手工完成,并且每个词群只涉及语义近义或相关的词语,具体近似或关的程度也并未标明。所以在语义相似度的计算精度方面还是不够完善。
1.3 国外情感词典的相关研究
WordNet[16]是由普林斯顿大学的心理学家、语言学家和计算机工程师联合设计的一种认知语言学的英语词典,其根据单词的意义组成一个“单词的网络”。其中的名词、动词、形容词和副词各自被组织成一个同义词网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系链接。在WordNet的构建初期,普林斯顿大学语言学认知实验室的人们认为一个大的词库对自然语言理解、人工智能各方面研究都具有重要的价值,随之的问题就是词典的构造应该手工编制还是机器自动生成,词典的信息如何组织和设计,用户如何访问词典等。词库由自动获取和手工编织两种基本方式构成,其中手工构建词典的优点是便于创建更为丰富的词条信息和便于控制。构建的内容主要包含复合词、短语、搭配词、成语和单词,其中单词为最基本单位。词典构建并不是像语素分析法那样把词语分解为更小的有意义的单位,也不包含比词语更大的组织单位(如脚本、框架之类)。WordNet不包含词语的句法信息内容,所以对不同词性的词语区分处理,而短语搭配也不可拆分理解。其中内容既包括词语知识又囊括了一些百科知识及专业概念。 基于Hownet的情感词典构建研究(3):http://www.751com.cn/jisuanji/lunwen_9268.html