(5)TF*RF
Lan等提出了一种新的权重计算方法,即TF*RF(其中RF(relevance frequency)意为相关频率),并通过实验证明了其优于TF*IG等一些方法[64]。其中RF的计算公式如式3-9所示:
(3-9)
其中,定量2是由于对数操作是以2为底的,a,c的定义类似于CHI公式,即a为特征和类型共同出现的次数,c是特征出现而类型不出现的次数。
本文采用的特征权重计算方法包括:布尔权重、TF、log(TF)、TF*IDF、TF*CHI以及TF*RF,旨在比较不同的特征权重计算方法对于情感分类的影响。
3.4 SVM参数选择优化
本文使用台湾大学林智仁(Lin Chih-Jen) 副教授等开发设计的LIBSVM 软件进行情感分类。LIBSVM是一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,该软件提供了很多的默认参数,减少对SVM所涉及的参数的调节;此外,还提供了交叉验证的功能。
LIBSVM中两个关键参数为C和γ(gamma)。C为错分样本惩罚因子,即误差的容忍度。C越大,表示对误差的容忍度越小,即越不能容忍误差的出现[54]。C过大过小都会影响模型的泛化能力。γ是RBF(Radial Basis Function,径向基函数)核函数自带的一个参数。该参数隐含地改变样本数据子空间分布的复杂程度,γ越大,支持向量越多,反之则反。支持向量的个数直接影响着模型训练和预测的速度。来~自^751论+文.网www.751com.cn/
3.5 分类结果确定
本文中模型返回结果包括两部分,分别为:类别和隶属度,隶属度的分值越大,表明该样本属于该类的置信度越大[54]。隶属度的具体计算公式,如下:
(3-8)
其中Si表示所有支持判别类的分数,Ks表示所有支持判别类的个数,K为所有类别的个数。隶属度设置目的是为了进行分类结果过滤,因为样本的不平衡和随机抽样等问题,仅靠类别标签来作为分类结果,其准确率较低,加入隶属度能够以设定阈值的方式来提高准确度。
本文采用的类隶属度的算法为one-against-one(一对一)算法[65]。本文的情感分类是将评论语料分为两类,即是一个二分问题,故可看作上述算法的一个特例,基本思路与之一致。
4 不同领域评论信息情感分类及结果比较分析
上述内容介绍了情感分类的关键技术,以下从实验数据准备,SVM模型训练等方面逐步实现情感分类并进行分类结果分析。