3.5 观点词汇的倾向标识 17
3.6 低频特征识别 18
3.7 预测观点语句倾向 19
3.8 结构化展示 20
3.9 本章总结 20
4 系统评估 21
4.1 商品特征识别性能评估 21
4.2 影响系统性能的因素 25
结 论 27
致 谢 28
参考文献 29
1 概述
1.1 研究背景
近年来,网上购物已越来越走入寻常百姓家。根据《2012年度中国网络零售市场数据监测报告》结果显示,2012年我国网络(零售)市场交易规模已达13205亿元,消费额占社会消费品总额的6.2%,这表明网络购物(尤其零售市场)已经成为一种主流的消费渠道,并且上升趋势十分明显。有因于此,通过技术手段帮助、引导商家和顾客更方便、合理的进行买卖活动已成为一项十分热门的社会话题。
顾客在购买产品之后往往会被要求填写评论以供后来人参考,调查显示,无评论的新开店铺很少有人愿做“第一个吃螃蟹”的人,而拥有众多好评的店铺顾客量则会呈几何级增长,可见评价对于顾客的导向作用十分明显。同时对于商家(尤其是生产商)来说,通过评论来了解用户使用情况,进而对产品、服务进行改进也是十分重要的。
然而随着电子商务的越来越流行,顾客评论数量的增长也十分迅速,有些产品的评论数量数以百计甚至数以千计。这使得顾客们无法通过简单的阅读来获悉用户评价的整体趋势,也使得该产品的制造商难以追踪并处理顾客的意见。而在国内主流网上商城(如淘宝,亚马逊等)对于顾客评价仅有一个简单的评分,尚未给出具体的、简单明了的总结,这给生产商和用户均带来了不便。
1.2 研究目的
在本项研究中,我们研究的目的是生成对在线商品的用户评价基于特征的总结,并以直观易懂的方式呈现给顾客和商家,为双方的交易活动带来方便。这里提到的特征的定义是广义的,包括商品的属性、功能以及其他内容。在用户评论中所指的特征基本包括一下5个方面:
(1)商品属性:即商品本身的属性,比如手机的通话质量等等。
(2)商品构成:即商品构成部分,比如手机的摄像头,电池等等。
(3)商品构成的属性:即商品构成部分的属性,如手机摄像头的分辨率等等。
(4)商品相关实体:即和商品密切相关的实体比如快递,售后服务等等。
(5)商品相关实体的属性:即和商品相关的实体的属性,比如快递的速度等等。
对于一个给定商品的用户评价集合,我们的任务可以分为如下三个步骤:
(1)挖掘用户提到的商品特征。我们通过对数据挖掘和自然语言处理技术的双重应用来完成这项任务。
(2)识别出每条评论中的观点语句,并且确定是肯定的还是否定的。注意这些观点语句必须包含一个或者多个上述产品功能。为了确定每个语句观点的倾向(肯定还是否定),我们划分了三个子任务:首先,使用自然语言处理的方法标识一系列经常被用来表达感情的形容词。在本论文中这些形容词被称为观点词。其次,对于每一个观点词我们决定它的语义倾向,肯定的或者否定的。最后,我们来裁定每个句子的观点倾向。