Turney在[8]中使用了一种特殊的无监督的学习技术,它基于文件短语与词语“好的”、“差的”之间的交互信息。这些交互信息是对一个搜索引擎获得的数据进行计算得到的。Pang等[10]测试了多种对于电影评价情感分类的有监督的机器学习方法并且得出了机器学习技术的性能优于那些基于人工标签特征的方法的结论,尽管目前没有方法可以做出具有合理的准确性的情感分类。我们的工作与他们都不相同,因为我们是从句子级别上进行情感分类,而他们是从文件上。他们也没有找出已经表达了观点的特征,这一点在实践中相当重要。
2.3 文本总结
现有的文本总结技术主要归于以下两类:模版实体化和通道提取。第一个框架包括[11].它们强调对文件中的已经打包存在于模版中的特定核心实体和因素的识别与提取。这种框架需要背景知识以将实体化一个模版到一个合适的细致度。因此,它不是依赖领域或者类型的[12]。这于我们的工作不同,因为我们的技术不需要任何模版并且是依赖领域的。
通道提取框架[13]标识出那些最能够代表文件内容的段落(通常是句子)。我们的工作与之不同因为我们并不提取代表性的句子,但是标识并提取那些产品特征和与之相关的观点。
Boguraev和Kennedy[14]提出通过寻找文件中一些非常突出的表达、对象或者事件并通过他们来帮助总结。我们的工作仍旧与之不同,因为我们从一系列的顾客评价中寻找所有的商品特征,不管他们是否突出。因此,我们的总结并不是传统的文本总结。
大多数的现有文本总结都是针对单一的文件。有些学者也研究了含有相似信息的多个文件的总结。他们主要是为了总结这些文件中内容的相似和不同之处[15]。我们与之相关但却相当不同,因为我们的目标是寻找在多个评价中被提到的关键特征,并不对评价的相似与不同进行总结。
2.4 术语挖掘
在文本集中查找术语一般有两种基本技术:符号方法,依赖于术语的句法描述,称为名词短语;统计方法,利用词语组成术语一般会互相间接近并且重复使用这个特点[16]。不过使用名词短语的方法会产生太多非术语(精度低),使用重复短语会遗漏很多低频度的、有变化的以及一些单个词汇的术语。我们的挖掘技术并没有这些问题,并且我们可以找到不常提到的特征,因为我们只针对于用户已经表达了观点的商品特征。
3 系统设计与实现
系统的输入是一个商品,名称和一个有这个产品的所有评价的网页入口。输出是像概述部分展示的那样的一个评论总结。
系统工作主要分为如下三步(如前所述):(1)挖掘顾客评论过的产品特征;(2)标识出每个句子中的观点语句并且确定观点倾向是否肯定;(3)总结结果。这些步骤划分为很多子步骤。整个流程如图3-1所示。
开始输入时,系统首先下载(或者抓取)所有的评论,并且把他们放入数据库。然后寻找那些热点(或者高频率)特征,即有许多顾客表达了观点的商品特征。在这之后,观点词汇通过热点特征结果被抽取出来,并且在极性情感词汇表的帮助下进行情感倾向的确定。系统使用这些提取出来的观点词汇发现那些低频率特征。最后两步,确定每个观点语句的情感倾向并且产生最终的总结。注意,POS标注是指自然语言处理中的词汇标注,它帮助我们寻找观点特征。