综上所述,面向电商评论的观点挖掘与情感分析技术正符合当今电商网站海量评 论,消费者不易获取信息的困难,同时也是 “大数据” 时代文本挖掘、统计机器学 习方法面向实际应用辄待解决的重要问题,需要进行深入研究和探索。
1.2 国内外研究现状
1.3 研究目的
本项目的目标是构建一个面向电商评论的观点挖掘与情感分析技术系统,对互联 网商品进行观点挖掘、情感分析和观点总结,用以辅助消费者网购。针对中文评论特
性),提出适合中文评论的观点挖掘与情感分析模型和算法。最后,基于上述技术实 现一个高性能、高效率、可移植的电商评论观点挖掘与情感分析技术系统。
在本项目的研究中,我们的主要目标就是基于商品的评论生成对商品特征以及情 感的分析与总结,并以直观易懂的方式呈现出来,为网上虚拟环境下的卖家与买家之 间建立一种无形的连接。这里我们所说的特征主要指的是商品的属性以及商品的功能 等等。在消费者评论中所指的特征基本包括以下几个方面:1.商品属性:即商品自身 的属性,比如冰箱的制冷速度等等。2.商品构成:即商品的构成部分,比如电脑的硬 盘、显示屏等等。3.商品构成的属性:即商品构成部分的属性,如电脑硬盘的容量等 等。4.商品的相关实体:即和商品密切相关的实体比如快递,售后服务等等。5.商品 相关实体的属性:即和商品相关的实体的属性,比如快递的速度等等。本项目需要统 计词频,统计的词频为名词或者名词词组,还有短分句中没有名词搭配的形容词,因 为名词或名词词组词频很高的词汇很大概率上就是商品特征,而没有名词搭配的形容 词是一种常见现象,是典型的隐式特征。然后进行词汇聚类,并去除非特征的高频名 词,如何精准的提取商品特征是本项目的需要解决的主要问题。论文网
对于一种给定的商品用户评论的集合,我们的任务可以简单分为 4 个步骤: (1)特征挖掘,从给定的大量数据中分析挖掘出商品特征。这里我们可以通过对
数据挖掘和语言处理技术的应用来解决问题。 (2)在大量的用户商品评论中,找到观点语句,并且分析出观点的情感倾向。我
们这里所说的观点词必须与上述的商品特征配对描述。这里我们可以继续划分我们的 任务:第一,我们应该标示出一系列经常用来描述商品情感倾向的形容词。第二,对 于每一个情感词我们人为的确定他的情感语义倾向,正面的还是负面的。第三,通过 以上两步来确定句子中特定特征的情感倾向。
(3)结果展示,我们最终的结果以文本文件的形式进行展示,针对每一个特征, 对应的评价数量,好评数量,差评数量,并且将对应的好评差评在索引到特定的文件 中保存。
(4)通过从网上获取的评论进行准确度的判断,验证获取的商品的特征以及最终 结果的查全率与查准率,以此对系统的性能做出大概的评价。
1.4 相关工作介绍
淘宝等电商每天会产生千万级的用户输入文本,他们都是无结构的,因此与机构 化的数据相比,更难通过语义分析技术进行信息挖掘。然而,用户输入文本的无结构
话,又使得其能够挖掘的信息是无限的。对于用户评论进行语义分析的目的是分析出 用户对产品或整个交易过程中的哪些方面比较满意、哪些方面不是很满意,从人的思 维角度来分析用户评论,并以简单实用的方式展示出来,让交易双方能够更快的了解 某一个商品的信息以及评论情况。以一条实际的用户评论为例:“东西的质量很好, 就是价格不便宜,但是卖家的服务态度不错。”,我们的人脑是如何分析这条评论的 呢?模拟人脑分析的过程,首先是对评论进行分词;其次需要一个语义词典和一个语 法规则库,最后根据语法规则来抽取出属性情感搭配,根据语义信息确定最终的情感 倾向,得到最终的分析结果。