d) 支持向量机SVM
支持向量机方法是建立在统计学习理论的VC 文理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。
在进行文本分类的时候,我们可以让计算机这样来看待我们提供给它的训练样本,每一个样本由一个向量和一个标记组成。如下:
就是文本向量(文数很高), 就是分类标记。我们可以定义一个样本点到某个超平面的间隔:
图2.2 支持向量机模型图示
SVM的基本思想可用上图的两文情况说明:实心点和空心点代表两类样本,H为分类线,HI、H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分类间隔。所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大,原理示意图如图2.2。把w和b进行一下归一化,即用w/||w||和b/||w||分别代替原来的w和b,那么间隔就可以写成:
(2.21)
yi[(w•xi)+b]≥1 (i=1,2,…,l)
因此我们的两类分类问题也被我们转化成了它的数学形式,一个带约束的最小值的问题:
Subject to (2.22)
满足以上公式且 最小的分类面就叫做最优分类面,H1和H2上的训练样本点就称作支持向量。
基本的SVM是针对两类分类问题的,为了实现对多个类别的识别,需要对SVM进行扩展。常用的SVM多类分类方法有One-VS-Rest、One-VS-One、ECOC(Error—Correcting Output Coding)、DAGSVM和二叉树等方法[7]。
2.3.2 人工神经网络
人工神经网络是对人类大脑的一种模拟。它由一组处理单元和它们之间的联接组成:处理单元包括输入单元,隐藏单元和输出单元,它们具有局部内存,并可以完成局部操作,可以接受多个输入信号,产生一个输出信号,这个信号可以传播到多个联接上:联接能够以一定的权值传送信号,这些权值在神经网络的训练过程中可以动态调整;各处理单元可以并行运行。它适于学习复杂的非线性映射,主要应用于语音、视觉、知识处理、辅助决策等方面。根据网络结构和学习算法的不同,人工神经网络分为多层感知器、自组织映射和Hopfieldl网络等[8]。
2.3.3 决策树分类法
决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一颗决策树。决策树通过把实例从根节点排列到某个子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点指定了对实例的某个属性的测试,并且该结点的每个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝上下移动,这个过程在以新结点为根的子树上重复。决策树算法有ID3、CART、CHAID、ASSISTANT 算法,他们的区别在于构造决策树和树枝剪枝的算法细节不同。决策树对噪声数据具有很好的健壮性,最大缺点是不适应大规模的数据集[3]。
2.4 性能评估
随着信息技术和Internet 的发展,算法对数据的处理能力越来越需要大量化和精确化,文本分类算法标准从三个方面评价:有效性、计算复杂性,可理解性。有效性衡量一个分类器准确分类的能力;计算复杂性衡量算法的时间复杂度和空间复杂度;可理解性是衡量该算法是不是很好被理解,人们更易接受很好理解的算法。得宜于硬件的高速发展,我们不再缺少快速的机器和海量内存,我们在评价文本分类算法时更倾向于它的有效性,有效性主要有3 个指标:查全率(Recall)、查准率(Precision)、F-测量(F-Measure)。 文本分类技术研究+文献综述(6):http://www.751com.cn/tongxin/lunwen_2955.html