基于Web架构的互联网评论观点挖掘系统设计(2)

1.1 课题研究背景与意义
随着互联网的蓬勃发展和电子商务的不断热门,越来越多的互联网用户希望能够参与
互联网构建，成为了大量网络数据资源的分享者。因此，互联网存储着海量的表达主观意
向和情感倾向的文本，这些包含情感的文本往往是以博客、微博、人人网、论坛、贴吧等
等形式存在。同时，互联网用户同样也是资源的利用者，他们希望能较快捷地获得更多网
上评论来分析和判断自己决策的正确性，例如：商家和厂家需要从海量的评论和反馈里分
析出顾客使用他们产品情况的满意程度，潜在的购买者也需要能快捷地通过别人的评论来
决定是否购买等等。
由于这些互联网评论数据信息迅速的膨胀，仅仅依靠人工分类筛选的方法难以应付网
上海量信息的收集和整理，所以依靠计算机智能分析大量数据快速获取和助理这些相关评
论信息就显得尤为重要，因此，观点数据挖掘应势而生，其有着非常广泛和潜力的应用前景和研究价值。[1]
随着观点数据挖掘和情感分析算法的深入研究，各式各样的算法思想也浮出水面。同
样的，制作一个衔接各类算法接口进行可视化展示给广大互联网用户也显得尤为重要。 1.2 相关知识介绍
1.2.1 观点挖掘情感分析和对偶情感算法简介
观点挖掘和情感分析（Opinion Mining and Sentiment Analysis），是对具有情感倾向文本
中的信息（如评论观点、情感倾向性等）进行挖掘和分析的一项研究课题[2][3]。其中情感
分类（Sentiment Classification）也是情感分析和观点数据挖掘的基础和重要工作，目的是
针对文本中的主观观点、情感倾向性进行自动分类，判断文档褒贬倾向的情感极性[4][5][6]。
在不断深入研究情感分类的过程中，机器学习方法思想逐渐成为情感分类方法的主流
思想。该方法进行情感分析的主要思路是：首先利用词袋模型（Bag of Words，BOW），将
每个文本表示成一个向量，之后利用标准常用的机器学习算法思想，如支持向量机（SVM）、
朴素贝叶斯（Naïve Bayes）、最大熵（Max Entropy）等进行分类预测和模型训练 [5]。
反义算法的实现也是本课题的一个展现方面，其主要思想是利用反义词词典，替换掉
否定域内的给类词性的情感词语。例如“衣服质量也不太好” ，将替换成“衣服质
量也太差”。遍历反义词词典我们将得到特征词“好”和 “差”是一对反义词，“不”和空是一对反义词，故进行同等级的替换就完成了反义算法。但在某些语料上（例如中文）
目前还没有提供反义词字典资源。因此，反义替换算法的最主要问题将转移到如何构建反
义字典上。论文的第4.3.4 节将重点讨论了如何构建反义字典。
1.2.2 有关极性转移现象分析方法
情感文本中的极性转移现象问题，也是情感分类分析方法中重要的一项，若仅仅按照
模型语料的训练和分析而忽略极性转移将会得到相反结果。情感极性转移是指由于某些语
言结构导致情感极性（褒贬）出现转换的现象，例如：
“I liked this bag , but it’s not my tasty now”。
“liked”情感词表达了褒义的情感倾向，但是由于转折词“but”和否定词“not”在
后一句出现，使得情感极性从褒义反转成贬义。而像上例中这样的极性转移是自然语言中
很常见的语言现象。如果按照传统模型训练和分析方法，只能孤立地捕捉“like” 、 “but” 、基于Web架构的互联网评论观点挖掘系统设计(2):http://www.751com.cn/jisuanji/lunwen_14838.html