CHI值度量特征与类型之间的相关性程度,CHI值越大,表明特征t与类型Ci越相关,反之则反。
(3)IG
IG在文本分类中特征t的IG权重公式如式3-3所示。
(3-3)
IG的特征重要性的衡量基准是特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要,即IG值越大,该特征越重要。
(4)MI
MI在文本分类中特征t的MI权重公式如式3-4所示。
(3-4)
MI值度量特征与类型之间的相关性程度,MI值越大,表明特征t与类型Ci越相关,反之则反。
以上方法各有利弊。Hwee等利用了一个可用的案例进行特征选择和感知学习,实验结果表明CHI的分类性能最优,MI的分类性能差于DF、IG、CHI[58]。
周茜等比较了TF、IG、MI、CHI等几种特征选择方法,实验结果表明多类优势率和类别区分词方法分类性能最优[59]。陈涛等比较了现有的特征权重和特征抽取方法,并用实验证明了没有一种特征选择方法是适用于所有或大部分分类语料的[55]。秦进等比较了MI、CHI、ECE、WET等几种特征选择方法,结果表明MI分类效果最优[60]。综上可见,尚无具有绝对分类优势的特征选择算法。这是因为训练集本身存在优劣不同,并且不同分类器对于不同类型的训练集性能也各有千秋。鉴于以上说明,在本文中选用卡方统计(CHI)方法进行特征选择。
3.3 文本特征权重计算
由于分类方法均建立权重计算的基础上,故特征权重计算方法的优劣将直接影响到分类的精度大小。常见的特征权重计算方法包括:布尔权重、TF,逆文档频率(IDF),TF*IDF等。
(1) 布尔权重文献综述
布尔权重是一种比较简单的权重计算方法。当特征词出现时权重为1,不出现时权重为0;
(2) IDF
IDF的使用是为了避免直接使用TF造成通用词干扰问题,增加特征的区分度[61]。常用计算方法为:
(3-5)
N为文档集中的总文档数,nk为出现特征Tk的文档数。当nk越大时,即使Tk的重要性越小,即使Tk是高频特征。当nk越小时,即使Tk的重要性越大,即使Tk是低频特征。
(3) TF*IDF
一个有效的分类特征必须具有高内聚性,即能够体现文本整体的类别;同时
还应具有低耦合性,即尽可能文本所属类别与其他类别。故在实际应用过程中往往结合使用TF与IDF[62]。TF*IDF的公式如式3-6(其中i表示类别号):
(3-6)
多数情况下需要进行归一化处理,TF*IDF归一化计算公式如式3-7(其中s表示类别i中特征项总个数):
(3-7)
(4)TF*CHI
随着分类技术的日益进步,特征权重的计算方法也在逐步增加,Deng等用CHI取代IDF,并用实验证明在基于SVM的文本分类中TF*CHI优于TF*IDF[63]。其计算公式如式3-8所示:
(3-8)