② 监督学习方法
Pang比较了Unigram、Bigram等多种特征与多个分类器交叉结合的分类性能,实验结果表明Unigram与SVM相结合的分类方法取得最佳性能 [12]。Li比较了DF、CHI、MI等多种特征选择算法对情感分类的影响[19]。
目前也有研究是将监督学习与非监督学习集合,旨在处理监督学习方法训练语料不足的问题。Melville等分别用监督学习和非监督学习方法训练两个NB分类器后集成两者,取得了较好的分类性能[20]。
目前训练语料匮乏是监督学习方法的瓶颈,句子级情感分类中监督学习方法也受到该瓶颈的限制,对原始语料进行人工标注代价昂贵;无监督方法无需训练语料,但是该方法通常是基于某种领域词典,现今可供研究使用的词典资源不丰富,词典的构建的代价不低于标注训练语料,对于中文环境而言这类资源更加贫瘠。因此可以说两种方法各有弊益,在今后的研究中药尽可能结合两方面的优势。
(3) 文本级情感分类
文本级情感分类的主要工作是识别文本的情感倾向。文本可以看作是一个长
句子或多个句子结合,故文本级情感分类方法一般沿用句子级情感分类方法,特征与分类器相结合。与句子级情感分类不同的是句子通常只包含一个观点,而文本的观点一般不止一个,这就涉及到如何识别多观点的情感倾向问题。经典方法为两类:其一为基于句子识别, McDonald等认为篇章倾向性与构成篇章的句子的情感倾向性一致,考虑句子的上下文进文本情感分类[21];其二为基于主题识别, Lin、Mei等人考虑篇章中每个子主题的情感倾向对篇章整体的情感倾向影响,认为所有子主题的情感倾向的集成即为篇章整体的情感倾向[22] [23]。
3情感分类难点
当前,情感分类研究与应用中,存在的难点问题包括如下四点:
(1)文本口语化
以评论信息为代表的主观性文本口语化程度较重,加上Web2.0环境中大量涌现的网络词汇,这些都给情感分类加大了难度,提出了时效性的要求[2]。
(2)中文语法结构复杂
中文语法结构复杂,语义多样,如一词多义、语句歧义等。句法结构中的讽刺句式情感分类难度很大。此外,随着时代和语言环境的变迁,部分褒义词和贬义词有互相转化的趋势,即褒义词演变成贬义,贬义词转化为褒义,这些也在一定程度上增加了情感分类的难度。
(3)情感类型划分不统一
目前国内情感分类领域的学者对于情感基本类型的划分存在较多不同意见,
缺乏统一的标准和原则[30]。
(4)关系抽取难
如何正确识别评价词与特定主题之间关系是情感分类的关键问题之一。同样的词语在描述不同的对象时会产生不同的情感。其中最为典型的示例是“性价比高”和“价格高”,显然前者表示褒义,而后者表示贬义。这些问题就涉及正确识别情感所描述的对象问题,即为关系抽取[2]。
2.2 SVM在情感分类中应用概述
SVM是由Vapnik 等人提出的基于统计学习理论的新型机器学习方法[31]。不同于传统的ERM (Empirical Risk Minimization,经验风险最小化),SVM遵循SRM(Structure Risk Minimization,结构风险最小化)原理,假定样本服从于某个分布,依据统计学习理论,尽可能缩小机器分类结果与正确值之间的误差[32]。SVM对于过拟合、高维度、非线性以及局部收敛等问题很有优势。SVM诸多的优良特性使得其逐步成为机器学习领域的热点,成功应用在很多领域,如:文本分类[32]、手写字符识别[33]、人脸检测[34]等等。