1.5 研究目标
本项目的目标是构建一个面向电商评论的观点挖掘与情感分析技术系统,对互联 网商品进行观点挖掘、情感分析和观点总结,用以辅助消费者网购。针对中文评论特 性),提出适合中文评论的观点挖掘与情感分析模型和算法。最后,基于上述技术实 现一个高性能、高效率、可移植的电商评论观点挖掘与情感分析技术系统。
1.6 研究内容
根据上述研究目标,本项目主要进行下列三个方面的研究:(1)评论数据获取与 预处理技术;(2)商品特征抽取方法研究;(3)商品特征情感分析技术。
2 系统设计与实现
首先我们需要研究系统的输入与输出,输入肯定是一个商品的大量文本评论信 息,输出就是对这个大量文本评论的商品印象总结,就是对特征情感信息的一个统计 总结。
本项目的目标是构建一个面向电商评论的观点挖掘与情感分析技术系统,对互联 网商品进行观点挖掘、情感分析和观点总结,用以辅助消费者网购。针对中文评论特 性),提出适合中文评论的观点挖掘与情感分析模型和算法。最后,基于上述技术实 现一个高性能、高效率、可移植的电商评论观点挖掘与情感分析技术系统。
此系统的主要研究内容可以分成四个部分: (1) 评论数据的获取与预处理技术;来!自~751论-文|网www.751com.cn
(2) 商品与特征抽取方法的研究;
(3) 商品情感分析技术,并且需要标记处每个句子中的观点语句,以及索引出商 品属性情感的评论;
(4) 总结并分析结果。 但是这只是一个简单的步骤,其中还有很多子步骤需要注意,具体的我们可以参照流 程图,如图 2-1 所示。
在系统开始输入之前,我们首先应该得到系统所需要的大量评论,这里我们不是 把他们放到数据库,为了试验的需要,将这些大量评论放到文本文件中即可,然后在 这个大量文本文件进行分词,这里有很多分词的工具供我们使用,然后根据需要去除 停用词。上述步骤做完就可以根据我们的需要来寻找那些高频率的属性特征名词(如 快递,产品质量等等),这里我们对特征的寻找是有根据的,通过对原评论的数据分 析,基本上属于产品特征的名词会和观点词同时出现,这样我们就可以通过对属性寸 照方法的改进来进一步提高准确性。在这之后,观点词汇就可以通过在上述查找过程 中所找到的观点属性分句分析出来,并且在我们自己做好的语料库的配合之下进一步 将观点语句的极性分析出来,并由此确定情感倾向。最后通过聚类,将同义特征情感 进行统计确定出每个特征属性的情感以及统计信息。