情感分类概述1分类任务情感分类过程复杂,通常包括三个步骤:即文本的主观性分类(Subjectivity Classification)、文本的极性分类(Polarity Classification)以及情感强度的判别[2]。所谓文本的主观性分类,就是识别文本中是否只有客观信息而无主观信息,换言之,判别文本是否只描述了一个客观事实而没有情感、观点等的情感表达。因为只有客观信息的文本在多数情况下对于情感分类是没有帮助的。在早期的研究中文本的主观性分类问题是独立存在的,近期的研究中才逐渐成为情感分类的第一步骤,首先利用第一步的主观性分类来除去一些不包含主观信息的句子和文本,以便于进行下一步的极性分类。主观性分类方法基本都是基于监督学习的,如Wiebe等使用布尔权重特征集和NB(Naïve Bayes,朴素贝叶斯)分类器进行主观性分类[8]。后期主观性分类的更多的研究利用了更为复杂的句法结构,如Riloff、Wiebe等人的工作[9][10]。66776
目前所研究的情感分类大多是指极性分类,即文本情感的极性判别,换言之判断文本所表达的情感是正面的还是负面的。当前具有代表性的方法有两类:其一是基于知识的规则方法,这类研究以Turney为代表,通常是非监督的方法[11],另一种则是基于机器学习的方法,这类研究以Pang为代表,通常是监督学习的方法[12]。
情感强度识别是指在极性分类的基础上还需要判别正负情感的强度。强度识别是一种特殊的分类,因为情感强度的识别是以类别为基准的,这些类别通常是有等级且离散的。目前的主要的研究方法有三类:其一为多分类方法,Lin等在将句子的情感强度分为五个级别基础上采用LSPM进行强度识别 [13];其二为回归方法,Pang&Li不设定情感强度的类别,而是根据SVM回归方法给予文本情感强度的分数进行情感强度判别[14];其三为序列标注方法。
2分类粒度
目前,根据文本处理粒度的不同,文本情感分类可以分为词语级、句子级、文本级等几个研究层次。
(1) 词语级情感分类
词语级情感分类的主要工作是识别词语的情感倾向,构建情感词典。目前的
基本研究思路是利用词语间的相似度扩展词典。Hu& Liu借助WordNet,通过词语间的相关关系(如:同义词、反义词等)对情感词典进行扩展[15];Hassan、Kamps等人的工作与之类似,也是基于WordNet,但不是利用同义反义关系而是计算词之间的相似度,对词语进行情感分类 [16] [17]。
词语级情感分类思路清晰、方法简单、便于实现。但是上述方法计算得到词语相似度通常精度不高,因为上述方法只是基于一般情况下的词语语义,并没有考虑词语所在的句子或者上下文。此外,词语级情感分类研究致力于形容词的倾向判别,极少有对于其他词性词语的情感分类研究。论文网
(2) 句子级情感分类
句子级情感分类主要工作是判断句子的情感倾向。此类别的核心问题是特征
选择。所谓特征选择,就是保留文本中有益于判别文本情感倾向的词汇,过滤无用的词汇[18]。典型方法为两类:其一为监督学习方法;其二为非监督学习的方法。
① 非监督学习方法
将句子的情感倾向依赖于句子中词的情感倾向性。显然,该方法的关键是词的倾向性识别。Turney利用POS(Part-of-Speech,词性)和模式来选择情感短语;然后利用PMI(Point Mutual Information,点互信息)计算短语的情感;最终句中所有短语的平均情感即为句子情感倾向[11]。