词汇作为一种能独立运用的最小语义单位,承载着文本情感信息的表述,也是计算更大语言单元所蕴含情感信息的重要基础,然而明确标注词汇的情感属性的常用语言资源比较少,而语言资源是许多自然语言处理技术和应用的基础。
近年来,有关自然语言、人工智能、信息检索、数据挖掘等领域的国际顶级会议都收录的很多情感倾向性分析的相关论文。许多国外知名学者都对词、短语、搭配等语言单元的倾句性识别进行了大最的研究,相关文章发表于各个国际知名会议。Sista[1]等以GI中的褒贬义词汇作为种子词,利用WordNet[2]进行自动扩展,以扩展后的一词语集合为分类特征之后,再进行下一步的深入研究。Lim和Hovy[3]利用WordNet中同义词的情感类别判断目标词的情感类别。Turney[4]通过分析词汇上下文信息研究其情感倾向,使用“excellent”和“poor”两个词汇作为种子来判断其它短语的语义倾向,将这两个词汇作为“positive”和“negative”的代表,假定与“excellent”经常共现的短语具有正面倾向,与“poor”经常共现的短语具有反面倾向,采用PMI一IR方法,进行领域相关实验。Hatzivassilolou和Mckeown[5] 利用大规模语料库中的连接词信息来自动识别形容词的情感倾向,他们利用线性回归模型预测由不同连接词的形容词对是否具有相同或相反的情感倾向,预测精确率达到82%。对于多个形容词间的连接关系,利用聚类算法将形容词分为具有不同情感倾向的集合,并标注为褒义或贬义"在特定预料库中对形容词的标注精确率达到了90%以上。Kamps[6]等利用WordNet中的同义词关系构建同义词网络,通过比较给定词汇到单词“good”和“bad”的最短路径来判断该词汇的语义倾向。Takamura[7]等提出了 Latent Variable Models,用于短语的语义倾向性研究。Faye Baron和Graema Hirst[8] 各抽取与倾向性比较强的词汇的搭配作为倾向性分析的特征。Xia Yun-qing[9]等提出了unified collocation framework(UCF),通过对属性和情感词汇标记词性,以使属性与情感词的搭配更宽泛,提高召回率"复旦大学的朱嫣岚[10],等提出了基于语义相似度和语义相关场的两种词汇语义倾向性计算方法,通过计算目标词与Hownet中己标注的褒贬性词汇间的相似度,获取目标词汇的倾向性。大连理工大学的徐琳宏[11]等采用Hownet作为基准词,通过计算目标词与基准词的关联度,确定目标词汇的语义倾向。中科院自动化所得根、
赵军仁[12]提出了词语倾向性的极坐标方式,并使用均衡化的互信息方法探讨词语独立于上下文的自身倾向性。北京理工大学的李钝[13]博士从语言学角度出发,分析短语中各词的组合方式特点,把短语归结为一个非递归的基本词汇集合及依存关系的集合,提出了一种基于短语中心词之间依存概率统计分析方法,并用于识别短语的倾向性和倾向强度。
传统的词语倾向性分析有两种方法,一种是基于词频统计来计算词语的倾向性概率。该方法需要大规模语料,如何选取语境信息的作为特征向道也很困难,此方法复杂且很难会得到理想的结果。另种方法就基于语义词典得到词语的倾向性。该方法比较简单易行,但是不能从词典中得到词语倾向性程度。随之而来的问题就是,词典默认为倾向性程度大小不同的词语对句子或篇章的情感倾向性贡献相同。如此可知,在多情感词的句子片段件,,情感的综合判断会出现误差。同时,词典只能提供词语本身的倾向性,而没有结合语境来分析,虽然有的词典给出词语的一些属性,但是这也不能覆盖词语的全部语境知识。 基于Hownet的情感词典构建研究(2):http://www.751com.cn/jisuanji/lunwen_9268.html