菜单
  

    对于如何选择文本特征的问题,存在多种方法。大体上可以分成两类:基于信息论和统计分析的方法,以及基于字典的方法。基于字典的方法准确性较高,但字典往往是领域相关的,而且其建立过程需要大量的时间精力,因此大多数现有的特征选择算法都是基于信息论和统计分析的。特征选择的具体步骤如下:
    a) 从训练文档库中提取得所有特征项,构成文档特征集合F;
    b) 对集合F中的每一项用下列某一种方法进行打分,然后按分值由高到低进行排序;
    c) 假设需要选取N个文档分类属性,则从F中选取分值最高的N个项,构成最终的分类属性集Fs。Fs将用于文档分类的训练与测试。
    特征选择方法有如下几种:
    a) 信息增量(Information Gain)
    信息增量表示文档中包含某一特征值时文档类的平均信息量。它定义为某一特征在文档中出现前后的信息熵之差。假定c为文档类变量,C为文档类的集合,d为文档,f为特征(以下各节同此)。对于特征f,其信息增量记为IG(f),计算公式如下:
           (2.4)
    其中, 表示一篇文档属于类别C的概率, 表示特征项f在一篇文档内出现的概率, 表示特征项f不在一篇文档内出现的概率, 表示特征项f在属于类别C的文档内出现的概率, 表示特征项f不在属于类别C的文档内出现的概率。 值大则被提取的可能性大,即特征项按照 值排序。
    b) 互信息(Mutual Information)
    互信息是用于表征两个变量间相关性的。对于文档类别c和特征f,其互信息为
    MI(c,f),计算公式如下:
                                   (2.5)
    显然,当f独立于c时,MI(c,f)为0。在应用时一般取平均值:
                                  (2.6)
     表示在训练集中即包含特征项f又属于类别c的文本出现的概率, 表示训练集中属于类别次c的文本的概率, 表示包含特征项f的文本在训练集中出现的概率。
    c)  统计
     统计也是用于表征两个变量问的相关性,但它比互信息更强,因为它同时考虑了特征存在与不存在时的情况。对于文档类别c和特征f,其 统计的计算公式如下:
                     (2.7)
    当c与f相互独立时, 为O。和互信息类似,取平均值:
                                        (2.8)
    d) 交叉熵(Cross Entropy)
    交叉熵和信息增量相似,不同之处在于信息增量中同时考虑到了特征在文本中发生与不发生时的两种情况,而交叉熵只考虑特征在文本中发生一种情况。对于特征f,其交叉熵为 ,计算公式如下:
                           (2.9)
    在只考虑单个类的时候,则有:
                            (2.10)
    e) Fisher判别式
    Fisher判别式是一种基于统计的方法,表示某一特征在类间分布和类内分布之比:
    上面,n(d,f)和n(d)分别表示特征f在文档d中的频数和文档d中总的特征频数[4]。
    2.2.3  文本加权方法
  1. 上一篇:基于最速下降法的FIR滤波器设计方法研究
  2. 下一篇:MATLAB高速动车组牵引变流器的分析与仿真
  1. 基于OFDM的用户接入控制技术研究

  2. 基于OFDM的数字图像无线传输关键技术研究

  3. LSSVM采用几何方法的图像观测技术实现

  4. QPSK无线通信网络中基于...

  5. msp430g2553单片机高精度差分GPS技术研究

  6. VLC可见光通信关键技术研究

  7. MATLAB视频图像液滴速度检测技术研究

  8. 中考体育项目与体育教学合理结合的研究

  9. java+mysql车辆管理系统的设计+源代码

  10. 十二层带中心支撑钢结构...

  11. 河岸冲刷和泥沙淤积的监测国内外研究现状

  12. 酸性水汽提装置总汽提塔设计+CAD图纸

  13. 电站锅炉暖风器设计任务书

  14. 乳业同业并购式全产业链...

  15. 大众媒体对公共政策制定的影响

  16. 杂拟谷盗体内共生菌沃尔...

  17. 当代大学生慈善意识研究+文献综述

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回