2.6 位置标记与检索 21
2.7 结构化展示 21
2.8 本章小结 22
3 系统分析 23
3.1 商品特征识别性能评估 23
3.2 关键问题 25
3.3 下一步工作 26
结 论 27
致 谢 28
参 考 文 献 29
1 引言
1.1 研究背景
随着计算机与网络技术的不断发展,如今的互联网已经进入社会媒体(social media)时代。特别是在电子商务(electronic commerce)中,存在着海量的消费者 评论,让人目不暇接,购买者很难快速发现即将购买的商品特征及其评价褒贬。因为 消费者在购物时,需要通过分析已有评价记录,做出是否购买该商品的决定。但是, 随着互联网的高速发展,消费者人数剧增,商品评论也随之增加,有些热销商品的评 论甚至达到了上万条,消费者在浏览商品时,如试图一条条把评论看完,则需花费大 量时间和精力;但如果只看部分评论,可能会得到片面印象影响决策。因此需要把所 有评论进行观点挖掘整合之后,以一目了然的方式展现给消费者,让消费者快速获取 有价值的信息,从而做出决策,避免上当受骗或者买到瑕疵品。对于消费者来说,需 要了解商品的整体评价信息,优缺点介绍及注意事项,识别是否是瑕疵品,性能是否 满足自身需求,以便做出决定是否购买此商品;对于商家来说,需要掌握消费者对产 品的意见和建议,以改进性能和售后服务。这样,一方面可以改变消费者对商品观点 的看法,另一方面这些消费者评论提取技术结果的简洁新颖也反过来会影响其他消费 者做出购买决策[1,2]。
近年来,以有效获取商品评论信息的一些评论挖掘技术吸引了很多学者关注[3], 评论挖掘作为信息挖掘的一个新兴领域,主要涉及网络评论情感倾向等的分析,评论 中产品特征的提取,以及评论中产品比较信息挖掘等等[4-7]。面对这些浩如烟海的互联 网文本,仅靠人工进行跟踪、组织和管理难以实现,因此利用计算机对这些主观文本 进行自动分析、挖掘与管理,具有重大的现实意义。
基于特征的文本情感分析(sentiment analysis)技术,正是面向上述需求,对 评论中的主观信息(比如观点、情感等)进行挖掘与分类的一项研究课题。情感分析 的研究起源于本世纪初期,经过十多年的发展,已经逐渐成为自然语言处理领域的一 个研究热点。如今,它不仅是自然语言处理领域,而且还是人工智能领域其他方向(如 信息检索、机器学习、数据挖掘、模式识别等)研究的重要问题。总之,开展互联网 文本情感分析的研究不仅具有重要的科学意义,而且具有巨大的应用价值和不可低估 的社会意义。
尽管基于特征的情感分析已经得到了深入的研究,但是仍然存在很多问题辄待解 决。首先,消费者发表评论的形式不一,具有地域性的口语化;其次,由于中文的特 性,对同一特征、情感表述往往使用不同词语,但实质一致;再者,有时中国人表达 情感时过于隐晦式的表达,难以挖掘。因此,如何有效的利用评论,提取特征挖掘情 感,是一个值得深入研究的问题。