文本情感分析研究现状(2)

总的来说，以情感词典为基础的文本情感分析方法，更加注重在句子级和词语级的研究，因此对文本信息分析精度更细，然而句子和短语级的分析可能会忽略文本信息中隐藏的情感信息，比如上下文、词性组合等等。
（2）基于机器学习的文本信息分类
这类方法的机器学习模型通常有：SVM, KNN, Decision Tree和Naïve Bayes等分类算法。在国外，Pang等[11，12]将机器学习算法应用在电影的评论上，将电影评论进行情感极性分类为：正向情感和负向情感，他分别采用了Naïve Bayes、SVM、最大熵三种分类器做实验，发现在这三种分类器中，SVM这种分类器的分类效果相对更好。Moens[13]把机器学习方法应用到对不同语言作情感分类上，在分别对英语、法语、荷兰语的实验中，发现机器学习的方法不受语言的限制，尤其在外语中，能够在这三种语言的情感分析中取得不错的分类效果。
在中文文本情感分析中，乔向杰等[14]采用不精确的推理方法获得学生对学习事件的期望，在这基础上，使用分类器中的基于概率的模型贝叶斯网络对其建模。唐慧丰等[15]在单词词性的层面考虑，通过分析不同词性，例如统计不同词性的组合，如adv+v更可能表达某种情感等方法来选择特征进行模型训练，分别用贝叶斯分类、K近邻、中心向量法和支持向量机做不同的文本分类对比实验，实验结果表明：采用N-Gram、信息增益特征选择方法和SVM分类模型，可以获得很好的文本情感分类效果。
基于机器学习的文本情感分析，最重要的如何提取有助于分类的特征，特征提取的好坏直接影响到模型建立的好坏。缺点是过于依赖语料集，即使相同的模型，对不同的测试集的测试效果也有可能大相径庭。优点是特征获取客观，分类效果好。随着训练语料集的迅速扩充，机器学习方法有更好的发展空间。
2 微博情感分析研究现状
微博作为互联网上新兴的应用之一，与国外微博Twitter相比，对中文微博情感的分析相对较少，对这方面有特别大贡献的杰出文章也较少。Jiang[16]通过相关特征情感词典词汇的扩充来提高分类的精确性，从而提高实验的分类效果。Go和Bhayani[17]实验对象为Twitter中的信息，不同于以往的只对微博信息做情感分析，他们提出把含有表情图标的信息也考虑在内纳入训练集，利用分类器朴素贝叶斯，SVM和最大熵建模进行实验。
中文微博近两年呈现出高速的发展趋势，还处于起步阶段，这方面的文章较少，谢丽星[18]选择研究对象为新浪微博信息，选择了4种特征，利用分类器中的SVM分类算法对其进行情感分析研究，最后取得了较高的实验效果。陈晓东[19]通过对当前的情感词汇资源总结和整理，自己构建了一个面向中文微博的情感词典。周学广[20]在任务观点句识别上，采用的方法是构建情感词库，但是他对情感词库进行分类，有极性词库，例如：特别、很、非常等，否定词库，例如：不、不可能、不会等，这些对情感的判断有极大地作用。在任务二情感极性判断上，他使用线性相加法，利用到前面的正向情感词库、负向情感词库以及转折词词库，然后进行字符匹配，每遇到正向情感词+1，每遇到负向情感词-1，累计加减，遇到转折词库，置0，最后统计总数，大于0的判断为POS，小于0判断为NEG，等于0为NEUTRAL。许歆艺等人[20]使用2-POS模型，即连续两个词性的组合模型，首先用分词技术例如结巴分词，把微博句子分为连续n个词性的顺序组合，用这些项作为文本的一个特征。发现当N取2时，此时词性组合出现的概率较大，此种方法对观点句识别取得了一定的效果。文本情感分析研究现状(2):http://www.751com.cn/yanjiu/lunwen_40624.html