国外研究现状情感分析研究方法情感分析中的两个重要任务是情感信息抽取和情感信息分类。情感分析有两种方法,监督学习和无监督学习。无监督主要是利用句子中词的倾向性来确定句子的倾向性【8】。首先利用词典信息产生初始标注,其次,利用置信度高的样本作为训练集,最后,训练分类器利用启发式规则对于多个分类器进行集成。关键的问题是如何进行词的倾向性识别。它不用大量的语料库,具有领域独特性。相对于监督学习,无监督学习的研究不是很多。对情感分析的研究分为基于文档级和基于句子级的研究。基于文档级的研究中,Turney等人【9】提出一种利用无监督学习的方法,即用逐点互信息方法(point-wise mutual information,PMI)来对评论文档进行情感分类。分类过程中,先提取评论句中的形容词或副词,再分别计算其与褒义种子词"excellent"及贬义种子词"poor"的PMI值,最后将文档中提取的所有形容词或副词短语的极性相加得到整个评论的情感倾向。若被提取出的形容词或副词短语的平均语义极性是正面的,则将该评论分类为正面评论,反之则为负面评论。作为实验语料,在Epinions网站(www.epinions.com)中选取了410篇有关不同领域的评论文档(如手机评论、电影评论等),实验结果显示该算法能达到平均74%的精确度。当基于比文档和句子更细粒度的产品特征进行研究时,Hu等人(2004)【10】在其研究中采用了无监督学习方法来确定评论中以名词短语形式出现的显式产品特征,再通过SO值确定包含一个以上特征的评论上的肯定观点或否定观点,通过总结所有评论得出一个结论。Soo-Min Kim,Eduard Hovy(2004)【11】将根据给定主题,自动分类出谁支持谁反对。它通过一个模型和一个情感词库,通过对情绪词及其近义词的计算。根据得到的结果的绝对值的大小,确定情感倾向。Zagibalov 等人(2008)【12】在(Turney,2002)的SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。Tofiloski(2010)【13】重点说明了sentiment oration值的计算方法,指出各种词性的分值,以及强化词对分值的影响,同一词根的动名词得分之间的差别,以及针对可能出现的各种句式(祈使,疑问)对分值的影响。18803
情感字典构建
目前情感字典有GI(General Inquirer)评价词词典【14】。该词典收集了1,914 个褒义词和2,293 个贬义词,并为每个词语按照极性,强度,词性等打上不同的标签,便于情感分析任务中的灵活应用. 主观词词典,该词典的主观词语来自OpinionFinder 系统,该词典含有8,221 个主观词,并为每个词语标注了词性,词性还原以及情感极性。论文网
国内研究现状
情感分析研究方法
朱嫣岚等人(2006)【15】利用HowNet对中文词语语义的进行了情感倾向计算。娄德成等人(2006)【16】利用句法结构和依存关系对中文句子语义进行了情感分析。
情感字典构建
目前文本词典有HOWNET中文词典,收录了个中文词目。台湾大学的情感极性词典包括2810个正极性词语和8276个负极性词语。HowNet 评价词词典.该词典包含9,193 个中文评价词语/短语, 9,142 个英文评价词语/短语,并被分为褒贬两类.其中,该词典提供了评价短语,为情感分析提供了更丰富的情感资源【17】。
参考文献
[1]赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,08:1834-1848.
[2]孙艳,周学广,付伟.无监督的主题情感混合模型研究[J].西安交通大学学报,2013,01:120-125.
- 上一篇:原位红外技术在催化剂文献综述和参考文献
- 下一篇:公司股权结构和绩效文献综述和参考文献
-
-
-
-
-
-
-
河岸冲刷和泥沙淤积的监测国内外研究现状
乳业同业并购式全产业链...
电站锅炉暖风器设计任务书
杂拟谷盗体内共生菌沃尔...
酸性水汽提装置总汽提塔设计+CAD图纸
java+mysql车辆管理系统的设计+源代码
当代大学生慈善意识研究+文献综述
大众媒体对公共政策制定的影响
中考体育项目与体育教学合理结合的研究
十二层带中心支撑钢结构...