观点文本分类的主要研究内容观点文本分类,近年来受到了广大学者们的关注,其主要做的任务是根据作者给出的评论进行极性处理(positive or negative)。Pang 和Lee[1]最先利用机器学习的方法进行了观点文本分类。他们采用了Unigram、Bigram的特征提取方法,TF绝对词频(TF)、TF布尔词频的加权方法(TF-IDF),运用朴素贝叶斯(NB)、最大熵和支持向量机(SVM)分类器对2000篇电影评论进行情感分类,最后结论是采用支持向量机(SVM)和特征布尔加权(BOOL)的方法取得了最优的分类结果。这些研究工作可以归纳为以下几个领域:59672
文本的极性分类
文本极性分类是把作者的评论分类成正面(positive)或者负面(negative)两类,Finn[3]等人的工作做得是最好的而且是最经典的,他们最后得到的结果是在特征选择方法词性标注方法比词袋方法效果好。Pang[4]在采用mini-cat方法对正面和负面评论进行了文本分类。
基于情感字典的观点文本分类
Tumey[5]使用了在没有监督的方法下,利用PMI计算方法,计算文本中出现的单词的倾向问题,对所以文章中的单词进行了倾向平均值得计算,判断文章是正面的还是负面的。Liu Bing等学者做的实验[6][7][8][9][10]中,使用了挖掘的特征的方法,在整理过的评论的语料上实验,利用观点文本分类的公式对语句进行了观点文本的得分计算,最终得到文本的倾向性。Taras Zagibalov[11]和John Caroll[12]利用没有监督的分类器下进行了中文观点文本分类,得到了不错的结果。Wang[13],Bin[14]在为中文观点文本分类时候,也运用了没有监督的分类方法,而且把大量的语言模型加了进来,进行了中文和英语的双语分类,利用了当时中文和英文的最大的语料。Nikalas Jakob[15]采用没有监督的方法使用首字母重复法来提高了观点文本分类的正确率。
基于机器学习的观点文本分类
Pang[1]在实验中我们选择了电影评论。该领域的实验方便,因为评论家经常总结自己的整体情绪与评价指标,如一些明星;因此我们不需要手动标记。我们也注意到,Turney(2002)发现电影评论分类是几个领域中最难的,报告的120件文件的准确率为65.83%(随机选择性能为:50%)论文网。但我们强调机器学习方法和特点应该很容易适用于其他领域,只要有足够的测试数据存在。数据来自于互联网电影数据库。我们只选择了评论的等级用星或者某一数值。规定值自动提取或者转换成3个类别:正面,负面和中立。跟本文中描述的一样,我们只是在正面和负面之间进行区别。我们做了少于20个作者情感回顾,单词库中752个正面和1301个负面词语来评价,共有144人参加。Paltoglou[16]等人在对TF-IDF权重模型下,对很多的观点文本分类中使用了这种方法,为学者们提供了大量的有用的数据。Wei Jin[17]等人建立了一个OM的机器学习系统,对单词使用了HMMs框架,成功实现了文本中特征单词和情感单词的自动分类和学习。唐慧丰[18]等人在有监督的情况下对中文观点文本分类做了比较深的研究。徐军[19]使用NB,最大熵分类器进行了网上新闻标题的分类。
机器学习与情感字典结合的方法
Prem Melville[20]对情感词典做了实验,如正面和负面词在所有特征项中占到的比例再按照NB分类方法进行分类,最终得到了不错的分类结果。Jonathan Read[21]尝试用特征项中的情感词作为特征,利用机器学习的方法对文本进行分类,最终达到跨领域的作用。Alina[22]等人在标注文本的方法在文本分类器上进行实验,也应用了WN(word net)中的情感字典。实验结果证明该方法比单独使用某一种方法要好。Jonathon Read[23]使用基本没有监督的分类器来对文本进行了文本分类,为的就是减少人们依赖标注文本。