平均长度(Average Length) 长度(Length)/词数
标准差的平方(Variance) [[Chunk中各词的长度-平均长度(Average Length)] 2 /词数] 2
自由语素度(Degree of Morphemic Freedom) Chunk中各词词频对数之和
简单的最大匹配算法基于字符算进行匹配,不考虑句子的语法结构或词的语义,分词结果通常噪音较大。为了增加分词的精度,MMSEG的复杂最大匹配算法在简单最大匹配算法的基础上增加了四条规则。四条规则如表3.2所示。
表3.2 MMSEG四项规则
类别 规则内容
规则一 切分语句,取最大匹配词组(Maximum matching)
规则二 取平均词长最大的词组(Largest average word length)
规则三 取标准差平方最小的词组(Smallest variance of word lengths)
规则四 取自由语素度和最大的词组(Largest sum of degree of average morphemic freedom of one character words)
MMSEG的中文分词首先利用简单最大匹配算法对句子进行切分,得到多种切分结果,即多个Chunk,在此基础上按步过滤劣质的Chunk,首先运用规则一,如果经过规则一后还剩多于一种分词结果,则经过规则二,以此类推直至只剩一种Chunk。那么该Chunk就是最终分词结果。算法具体运行过程如图3.1所示。
3.2 文本特征选择
文本经过预处理后可以得到一系列的特征词,但是通常维度较高,不利于情感分类的进行,所以需要进行特征选择。所谓的特征选择,就是指依据某种权重算法从文本中选择一些具有代表性的词[54]。换言之,特征选择就是从特征集T={t1,…, tn}中选择出一个真子集T1={t1,…, tm},满足(n>m)。其中,n为原始特征集大小,m为选择后的真子集大小,并且真子集中的特征与原特征集中的特征情感分类的结果相同[55]。特征选择的原则是经过特征选择后得到的真子集可以提高情感分类的性能。常见的特征选择方法很多,包括:词频(TF)、文档频率(DF)[56]、信息增益(IG)[56]、互信息(MI)[56]、卡方统计量(CHI)[56]、期望交叉熵(ECE)[57],文本证据权重(WET)[57]等。这些特征选择方法的基本思路相似,就是遍历特征集合中每一个特征词求取某种统计度量值,再在设定阈值φ的基础上,将低于φ的特征过滤,保留高于φ的特征,从而得到有效特征。论文网
(1)TF-IDF
TF基本思想是特征在文本集中出现次数越多,该特征越重要,越有利于情感分类,所以TF在筛除低频特征方面很有优势。DF是指在文本集中出现的频率,在实际运用过程中起到对特征进行区分的作用[56]。Yang & Pederson比较了几种特征选择算法,并用实验证明了TF结合IDF进行特征选择能够得到更好的分类效果[56]。
(2)CHI
CHI在文本分类中特征t的CHI权重公式如式3-1所示。
(3-1)
其中A是特征t和类型Ci共同出现的次数,B是特征t出现而类型Ci不出现的次数,C是特征t不出现而类型Ci出现的次数,D是特征t和类型Ci都不出现的次数,N=(A+B+C+D)。
此外,还有一种改进的卡方统计量(CHI)计算公式,如式3-2所示
(3-2)