1 SVM基本原理
SVM模型的基本思想为定义最优线性超平面,并把寻找最优线性超平面的算法归结为求解一个凸优化问题,下面简要说明其中的关键概念和技术。
(1) 结构风险最小化
以神经网络为代表的传统学习方法遵循 ERM原则,注重在训练过程中最小化样本的误差,容易导致过拟合问题,从而影响了模型的泛化性能[35]。然而,在实际应用中风险由两部分组成:其一为经验风险,即前文所述风险;其二为置信范围。在机器学习过程中必须综合考虑两项风险,旨在最小化实际风险,这种思想即为结构风险最小化原则[32]。
(2)最优超平面
SVM源于线性可分情况下的最优分类超平面,旨在寻找最优分类面最大化
分类间隔。以二维问题为例,如图2.1所示,就是寻找最优分类线H在将图中黑白两类正确分开的同时使得分类间隔d最大,分类间隔是指通过两类中离最优分类线最近的样本:T1 、T2 、T3 、T4 、T5,且平行于分类线H的两个分类线H1、H2之间的距离d。二维情况下的最优分类线推广到高维空间即为最优分类面,即标题所言最优超平面。
(3)核函数
SVM可以通过建立超平面来解决针对线性可分问题,然而对于实际应用中的许多非线性的问题就不能通过超平面来解决了,而需要构建更为复杂的超曲面解决实际分类问题。SVM不进行高维计算,而是通过不显式地变换计算,用已经定义的核函数来计算训练集样本之间的内积[36]。目前,尚未有系统全面的指导关于SVM中核函数的选择,多数情况下核函数的选择但凭经验。
综上可以得出:首先SVM的提出是用于处理线性可分问题,而对于线性不可分的情况,SVM利用非线性映射将样本从低维空间映射到高维空间,一般经过转化后的样本均会线性可分,同时用内积计算替代高维计算;其次SVM基于SRM原则,最终得到的是全局最优结果,而非局部收敛结果。
2 SVM应用于文本分类
情感分类是一类特殊的文本分类。传统的文本分类,就是在给定的分类体系下,基于某种处理方法判断与文本内容最为相关的类别。文本分类是自然语言处理的重要研究领域,近年来文本分类的应用也逐渐扩大,在信息检索、自动摘要、信息过滤等等方面都有成熟应用。SVM最初应用在模式识别中,最为突出的研究当属贝尔实验室对美国邮政手写数字库实验[31]。
随着信息技术的飞速发展,计算机文本逐渐取代纸质文本,同时互联网的出现引起了信息激增,两者均加速了自动文本分类的出现,基于机器学习的信息分类逐渐成为自动文本分类的大势所趋[37]。文本分类器构造的关键是分类算法的选择,常见的分类算法主要有:NB、KNN(K Nearest Neighbor ,K近邻)、NN (Neural Network,神经网络)、LLSF (Linear Least Squares Fit,线性最小二乘拟合)、DT (Decision Tree,决策树)、SVM等[38]。Yang& Liu比较了几种的文本分类算法,实验结果表明SVM、KNN、NB三种文本分类算法分类性能较优,其中SVM精度高但速度慢,NB速度快但精度低[39]。
相较于其他的文本分类算法,SVM优势较多:(1)通常情况下文本数据向量维度很高,SVM用内积计算取代高维计算,优势明显;(2)文本向量特征一般不独立,具有较高相关性,NB等分类算法依赖于特征独立性假设,而SVM不要求特征独立;(3)SVM不针对所有向量,而是研究对分类起重要作用的支持向量,便于增量学习和主动学习。