2.4 垃圾评论
垃圾评论(review/opinion spam或者fake/bogus review)指的是那些为了促销某种产品而给出一些与实际不相符的积极的评论,或者是为了诋毁某种产品或者品牌而给出一些虚假的负面评论,试图故意地误导阅读的人或者自动的数据挖掘和情感分析系统的“不合法”的活动[22]。
垃圾评论与垃圾邮件和垃圾网页类似,但也有不同之处。具体如下[23]:
网页垃圾是指使用“不正当的手段”,以提高目标网页其在搜索引擎中的排名。网页垃圾有两种主要的类型:链接垃圾和内容垃圾。垃圾评论之所以不同于网页垃圾是因为链接垃圾和内容垃圾很少出现在如产品评论这样的意见文档中。链接垃圾是在超链接上的一种垃圾,几乎不会存在评论中,因为在评论中通常是没有链接的。内容垃圾是试图在网页中添加无关或者几乎不相关的词语来提高搜索引擎排名,这也是很难在评论中发生的。
垃圾邮件通常是指未经订阅就接收到的商业广告。尽管存在,在评论中的广告也是很少的,他们也很容易被识别。
垃圾网页的主要目的是吸引人的眼球以提高网页在搜索引擎中的排名,垃圾邮件主要是为了发布广告,而垃圾评论则是两者皆顾。从垃圾特征方面考虑,垃圾网页和垃圾邮件中的垃圾文本一般都有明显的垃圾特征,垃圾文本的识别与过滤比较容易。但是垃圾评论与之相比,有些垃圾评论的特征并不是很明显,人工都很难区分。因此不能简单的将应用在垃圾邮件和垃圾网页中的识别和过滤方法直接应用在垃圾评论的识别中,应该寻求新的方法。
为了更好的对垃圾评论进行研究,Jindal N等人使用了Amazon的评论数据进行研究。他们将垃圾评论信息分为3类[24]:
(1)不真实评论
不真实的评论也俗称虚假评论或者伪造评论。为了推销一些目标对象而故意给出一些目标对象的无价值的积极评论(称为宣传垃圾)或者是为了损毁其他产品的声誉而给予不公正的或者恶意的负面评论(称为诽谤垃圾),故意误导读者或者意见挖掘系统。
(2)品牌效应评论
这些在评论中并没有明确的评论商品,而是评论的品牌、制造商或者是产品销售者。尽管这些评论可能会有用,但是他们并没有明确的指向具体的产品,而且是常常带有偏见的,因此我们认为他们是垃圾评论信息。
(3)非评论
非评论有两个主要的子类型:①广告;②没有包含任何观点的其他不相关的评论(如:问题,答案,随机文本等)。
2.5 无用评论与垃圾评论的区别与联系
依据2.3与2.4节的内容可知,垃圾评论包含了无用评论。无用的评论中的系统评论、无意义、以及干扰评论实际上指的是垃圾评论类别中的非评论。垃圾评论中的不真实的评论则指的是虚假评论中的推销和诋毁。但是有用评论中也包含了许多垃圾评论。比如说:有用评论中的不完整的、简略的评论,这类评论对于用户来说的没有很大的意义。因此本文所做的评论信息的识别实质上指的是垃圾评论与非垃圾评论的识别。
3 评论信息的分类方法
垃圾评论信息的研究已经成为了研究的热点。由最初垃圾邮件,到后来的博客中的垃圾评论,到现在的商品中的垃圾评论,许多学者借鉴了文本分类的方法来识别垃圾评论。本章选择了目前在多种文本分类方法中分类效果比较好的支持向量机方法来进行评论信息的分类实验,即垃圾评论识别实验,以验证该方法在商品评论领域内的有效性。
之所以选择SVM,是因为SVM通过核函数实现到高文空间的非线性映射,适合于解决本质上非线性的分类、回归和密度函数估计等问题。支持向量的方法也为因子筛选、信息压缩、数据修复、样本分析和知识挖掘等提供了一种新的思路[25]。 LibSVM面向数码领域的垃圾评论信息的识别研究(5):http://www.751com.cn/jisuanji/lunwen_9205.html