LibSVM面向数码领域的垃圾评论信息的识别研究(2)

4.8 实验四—RBF模型参数优化实验   36
5总结与展望   39
5.1   总结   39
5.2   展望   39
致谢   41
参考文献   42
附录1   46
1 绪论
1.1   研究背景
随着Web2.0的蓬勃发展和互联网应用的普及，人们的生活方式和交流方式都发生了极大的变化。网络购物凭借其自身的优势，也随之成为网民常态的消费方式。中国互联网络信息中心发布了第29次《中国互联网络发展状况统计报告》。报告中数据显示，截至2011年12月底，我国网络购物用户规模达到1.94亿人，网络购物使用率提升至37.8%。与2010年相比，网购用户增长3344万人，增长率为20.8%。我国团购用户数达到6465万，使用率提升至12.6%，较2010年底上升8.5个百分点。团购用户的年增长率高达244.8%，成为全年增速第二快的网络服务。CNNIC统计数据显示，网络购物商品生活化趋势更加明显，服装、家居等生活用品的网购消费群体继续扩大。
目前，大多数的电子商务网站都允许用户对自己所购买的商品进行评价。评论包含了消费者对产品和服务的各种各样的观点，这些评价信息不仅为产品制造商提供有价值的信息，例如：产品自身所存在的问题，竞争对手的销售情况，以便其分析这些评论信息，及时了解市场状况，提高自身产品的竞争力，而且可以为潜在的消费者提供是否应该购买该产品的参考依据，例如：在潜在消费者购买之前，可以了解其他已有的消费者关于该产品的使用体验，充分的了解产品的各个方面的性能，与同类产品进行多方面比较[1]。不幸的是，由于没有质量控制，人们可以随意的在网络上发表自己的观点，导致网站上的评论信息中含一些无意义甚至不真实的评论信息。这些信息不仅会影响潜在消费者的购买，也会对产品制造者造成不良的影响。例如，一些用户会因为自己对某一个产品或者品牌的偏见，对该产品进行不符实际的评论，这会影响潜在消费者对该产品的了解，以致影响其销售；一些用户是为了促销或者其他目的发布一些与该产品无关的无意义信息等。
如何从海量的评论信息识别出垃圾评论，提取出有价值的信息资源，成为学术界和产业领域一个比较热门的课题。
1.2   研究意义
(1) 理论意义：网络上的评价性的文本已经成为对产品、服务、时间、以及个人等一个有价值的来源。最近，许多研究者已经研究了如商品评论、论坛帖子和博客等观点。目前的研究主要集中在运用自然语言处理和数据挖掘技术进行分类和观点的概括上，但是，对垃圾评论识别的研究却比较少。识别垃圾评论信息的研究是商品评论研究一个新的方向。将对博客或者网页的识别方法引入到商品评论中，尝试一种新的算法来提高垃圾评论识别的效率，进一步丰富垃圾评论的识别方法。
(2) 实际应用：对于潜在消费者来说，去除垃圾评论后，他们可以通过阅读评论来全面了解已有的消费者对该产品的体验，为自己是否购买提供依据。对于生产厂商而言，去除垃圾评论后，他们可以通过对评论信息的分析，发现自己产品所存在的问题，改进产品，更加有效制定自己的生产计划。对于销售厂商而言，依据评论信息可以了解自己产品的销售情况，同时可以获得竞争对手的销售情报，及时调整自己的销售策略。对于网站运营者而言，去除垃圾评论后，网站的用户在购物过程中会减少很多噪声的影响，，可以看到公正的评价，选择适合自己的产品，增加了用户的粘性，同时可以减少逆向物流[2]。 LibSVM面向数码领域的垃圾评论信息的识别研究(2):http://www.751com.cn/jisuanji/lunwen_9205.html