中文文本和英文文本的最大区别就是分词的处理,中文文本与英文文本不同,没 有空格分开,不过只要经过处理后转化成文档模型后,中英文文本就没有什么差别了。 国内研究观点挖掘的步伐比较缓慢,主要是因为网络技术的发展对中文处理的贡献远 远比不上对英文处理的贡献。Li Shi 等人认为观点挖掘的方法一种是计算语义倾向性 的方法,还有一种是机器学习的方法,还用语义倾向性方法对恐怖电影的影评分类进 行研究。唐慧丰等人比较并且研究了监督学习的情感分类技术,选取了不同的特征表 示方法,选择了 N.Gram 以及名词、形容词、副词和动词作为文本的特征项来表征文 本向量;四种特征选择方法是:互信息、信息增益、CHI 统计量还有文档频率;五种 分类算法是:KNN、Winnow、Naive Bayes、SVM 还有中心向量法,基于这五种方法构 建不同文本的分类器;最后得到采用 Bi—Grams 特征表示方法、信息增益特征选择方 法和 SVM 分类算法时中文情感文本分类实验能取得最好的分类效果。熊德兰等对名人 中文网页中的褒贬性评论分类进行了研究,并提出综合评价这些网页的模型、方法和 具体操作流程,还想要构建褒贬评价模板。同年,由于国内现存的中文词汇语义情感 倾向计算方法对深层语义影响因素考虑的不多,西北工业大学计算机学院的赵煜,蔡 皖东等人针对这个问题,提出了一种利用词汇分布相似度的中文语义倾向性计算方 法。文献综述
已有的研究表明显式的属性表达通常是名词或者名词短语。Hu and Liu (2004) 提出了一种非常简单却实用的数据挖掘算法,首先利用词性标注选择名词和名词短 语,然后进行频率统计筛选出高频词汇作为属性[8]。该算法的弊端为抽取的属性噪音 较 多 , Popescu and Etzioni (2007) 通 过 计 算 点 互 信 息 (point wise mutual information,简称 PMI)排除非属性的名词短语,从而提高算法的准确性[9]。Ku et al. (2006)同样采用了基于频率的方法[10]。Moghaddam and Ester (2010)结合频率和模式
过滤器去除非属性词汇[11]。Zhu et al. (2009)在 CvalueFrantzi et al. (2000)方法 基础上,利用引导(bootstrap)技术去除非属性词[12,13]。Long et al. (2010)基于频 率来抽取属性的同时利用信息距离方法 Cilibrasi and Vitanyi (2007)寻找与属性相 关的词[14]。例如:对于属性价格而言,“元”“¥”等即为相关词。Ding et al. (2008) 提出了一种基于词典的简单方法,并且在多种情况下表现良好[19]。Blair-Goldensohn et al. (2008) 结合了监督学习方法对该方法进行了加强[20]。类似的方法也别运用在 Yu et al.(2011)[18]。Kessler and Nicolov (2009)则实验了四种策略来识别每个属 性的情感。Singh et al. (2013) 提出了特定领域基于属性的启发式方法进行电影评 论的属性级情感分析[21]。Thet et al. (2010) 提出了一种细粒度的情感分析方法, 该方法借助情感词典 SentiWordNet 确定评论中各个属性的情感倾向和情感强度[22]。 Kim and Hovy (2004)将情感词得分相乘[23]当然,还有许多其他的观点挖掘的方法。 Jo and Oh (2011)提出了属性与情感统一模型(Aspect and Sentiment Unication Model,简称 ASUM)同时采集属性和情感,该方法不需任何情感标签,很好的弥补了监 督学习方法的不足。目前该方向已有一些初步的研究成果(Andrzejewski and Zhu, 2009; Andrzejewski et al. 2009; Mukherjee and Liu, 2012; )[15-17],另一方向是 整合主体模型和其他技术以克服它的缺陷。
当然在有限的时间里我们能做的就是找到效果最好的方法进行实践,首先我们关 注的应该是评论的细化,也就是每条评论中的分句,在一个句子中很有可能同时出现 属性特征跟其观点语句。同时为了更加准确的结果,我们可以建立语料集对结果进行 修正。我们的工作和以下的技术密切相关,下面我们来一一阐述。