第二章为文献综述,主要介绍了情感分类以及SVM在情感分类中的作用。从分类任务、分类粒度以及情感分类难点方面阐述了情感分类,从SVM基本原理、SVM应用在文本分类以及SVM应用在情感分类三方面阐明SVM。
第三章为主要研究内容。首先描述了MMSEG中文分词算法原理,再依次讨论特征选择、特征权重、SVM参数选择优化、分类结果确定。
第四章是情感分类实现与结果分析。讲述了实验数据的准备,模型的训练与预测,以及对实验结果的分析。首先分析不同特征权重算法对于同种语料情感分类性能的影响。然后分析同种特征权重算法对于不同语料情感分类性能的影响,最后分析不同阈值对于情感分类性能的影响。
最后一章是总结与展望,本章中会阐述本文中所完成的工作,并对未来研究进行展望。
2 文献综述
2.1 情感分类概述
2.1.1分类任务
2.1.2分类粒度
2.1.3情感分类难点
2.2 SVM在情感分类中应用概述
SVM是由Vapnik 等人提出的基于统计学习理论的新型机器学习方法[31]。不同于传统的ERM (Empirical Risk Minimization,经验风险最小化),SVM遵循SRM(Structure Risk Minimization,结构风险最小化)原理,假定样本服从于某个分布,依据统计学习理论,尽可能缩小机器分类结果与正确值之间的误差[32]。SVM对于过拟合、高维度、非线性以及局部收敛等问题很有优势。SVM诸多的优良特性使得其逐步成为机器学习领域的热点,成功应用在很多领域,如:文本分类[32]、手写字符识别[33]、人脸检测[34]等等。
2.2.1 SVM基本原理
2.2.2 SVM应用于文本分类
3 基于SVM情感分类关键技术
本文在基于SVM情感分类过程中使用了中文分词、特征选择、特征权重、SVM参数选择优化等技术,下面将具体介绍这些核心技术。
3.1 中文文本自动分词
英文中单词之间是以空格作为分界符的,而中文并没有类似的分隔符,故而需要进行中文分词。中文分词是指将中文序列切分成一个一个独立的有意义的词。目前主要的中文分词方法分为三类:基于字符串匹配方法;基于理解的方法;基于统计的方法[50]。基于字符串匹配方法又可根据扫描方向、优先匹配的长度不同以及是否进行词性标注等交叉组合成多种子方法,其中最为常用的有正向最大匹配法,反向最大匹配法和最少切分[51]。基于理解的方法是指训练机器使之能够像人一样能够理解句子,在理解的基础上切分序列识别词语[50]。基于统计的方法认为相邻的字同时出现的次数越多,就越有可能构成一个词[52]。目前尚无具有绝对分词优势的分词算法。
我们采用改进的最大匹配分词算法(MMSEG)进行中文自动分词[53]。MMSEG分词算法是一种基于词典的分词算法。MMSEG的一项关键概念为Chunk(组块)。一个Chunk就是一种候选的分词结果。Chunk中包含经过简答最大匹配算法分好的一组词和相关属性,属性通常包括长度(Length)、平均长度(Average Length)、标准差的平方(Variance) 以及自由语素度(Degree of Morphemic Freedom),如表3.1所示[53]。Chunk中的相关属性只有在需要时才进行计算,且只计算一次。
表3.1 Chunk中属性及其含义[53]
属性 含义
长度(Length) Chunk中各词的长度之和