文本分类技术研究+文献综述(6)

d) 支持向量机SVM
支持向量机方法是建立在统计学习理论的VC 文理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力。
在进行文本分类的时候，我们可以让计算机这样来看待我们提供给它的训练样本，每一个样本由一个向量和一个标记组成。如下：

就是文本向量（文数很高），就是分类标记。我们可以定义一个样本点到某个超平面的间隔：
图2.2 支持向量机模型图示
SVM的基本思想可用上图的两文情况说明：实心点和空心点代表两类样本，H为分类线，HI、H2分别为过各类中离分类线最近的样本且平行于分类线的直线，它们之间的距离叫做分类间隔。所谓最优分类线就是要求分类线不但能将两类正确分开（训练错误率为0)，而且使分类间隔最大，原理示意图如图2.2。把w和b进行一下归一化，即用w/||w||和b/||w||分别代替原来的w和b，那么间隔就可以写成：
                                               (2.21)
yi[(w•xi)+b]≥1 (i=1,2,…,l)
因此我们的两类分类问题也被我们转化成了它的数学形式，一个带约束的最小值的问题：

Subject to              (2.22)
满足以上公式且最小的分类面就叫做最优分类面，H1和H2上的训练样本点就称作支持向量。
基本的SVM是针对两类分类问题的，为了实现对多个类别的识别，需要对SVM进行扩展。常用的SVM多类分类方法有One-VS-Rest、One-VS-One、ECOC(Error—Correcting Output Coding)、DAGSVM和二叉树等方法［7］。
2.3.2 人工神经网络
人工神经网络是对人类大脑的一种模拟。它由一组处理单元和它们之间的联接组成：处理单元包括输入单元，隐藏单元和输出单元，它们具有局部内存，并可以完成局部操作，可以接受多个输入信号，产生一个输出信号，这个信号可以传播到多个联接上：联接能够以一定的权值传送信号，这些权值在神经网络的训练过程中可以动态调整；各处理单元可以并行运行。它适于学习复杂的非线性映射，主要应用于语音、视觉、知识处理、辅助决策等方面。根据网络结构和学习算法的不同，人工神经网络分为多层感知器、自组织映射和Hopfieldl网络等［8］。
2.3.3 决策树分类法
    决策树学习是一种逼近离散值目标函数的方法，在这种方法中学习到的函数被表示为一颗决策树。决策树通过把实例从根节点排列到某个子结点来分类实例，叶子结点即为实例所属的分类。树上的每个结点指定了对实例的某个属性的测试，并且该结点的每个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始，测试这个结点指定的属性，然后按照给定实例的该属性值对应的树枝上下移动，这个过程在以新结点为根的子树上重复。决策树算法有ID3、CART、CHAID、ASSISTANT 算法，他们的区别在于构造决策树和树枝剪枝的算法细节不同。决策树对噪声数据具有很好的健壮性，最大缺点是不适应大规模的数据集［3］。
2．4 性能评估
随着信息技术和Internet 的发展，算法对数据的处理能力越来越需要大量化和精确化，文本分类算法标准从三个方面评价：有效性、计算复杂性，可理解性。有效性衡量一个分类器准确分类的能力；计算复杂性衡量算法的时间复杂度和空间复杂度；可理解性是衡量该算法是不是很好被理解，人们更易接受很好理解的算法。得宜于硬件的高速发展，我们不再缺少快速的机器和海量内存，我们在评价文本分类算法时更倾向于它的有效性，有效性主要有3 个指标：查全率（Recall）、查准率（Precision）、F-测量（F-Measure）。文本分类技术研究+文献综述(6):http://www.751com.cn/tongxin/lunwen_2955.html