菜单
  

    Turney在[8]中使用了一种特殊的无监督的学习技术,它基于文件短语与词语“好的”、“差的”之间的交互信息。这些交互信息是对一个搜索引擎获得的数据进行计算得到的。Pang等[10]测试了多种对于电影评价情感分类的有监督的机器学习方法并且得出了机器学习技术的性能优于那些基于人工标签特征的方法的结论,尽管目前没有方法可以做出具有合理的准确性的情感分类。我们的工作与他们都不相同,因为我们是从句子级别上进行情感分类,而他们是从文件上。他们也没有找出已经表达了观点的特征,这一点在实践中相当重要。

    2.3 文本总结

    现有的文本总结技术主要归于以下两类:模版实体化和通道提取。第一个框架包括[11].它们强调对文件中的已经打包存在于模版中的特定核心实体和因素的识别与提取。这种框架需要背景知识以将实体化一个模版到一个合适的细致度。因此,它不是依赖领域或者类型的[12]。这于我们的工作不同,因为我们的技术不需要任何模版并且是依赖领域的。

    通道提取框架[13]标识出那些最能够代表文件内容的段落(通常是句子)。我们的工作与之不同因为我们并不提取代表性的句子,但是标识并提取那些产品特征和与之相关的观点。

    Boguraev和Kennedy[14]提出通过寻找文件中一些非常突出的表达、对象或者事件并通过他们来帮助总结。我们的工作仍旧与之不同,因为我们从一系列的顾客评价中寻找所有的商品特征,不管他们是否突出。因此,我们的总结并不是传统的文本总结。

    大多数的现有文本总结都是针对单一的文件。有些学者也研究了含有相似信息的多个文件的总结。他们主要是为了总结这些文件中内容的相似和不同之处[15]。我们与之相关但却相当不同,因为我们的目标是寻找在多个评价中被提到的关键特征,并不对评价的相似与不同进行总结。

    2.4 术语挖掘

    在文本集中查找术语一般有两种基本技术:符号方法,依赖于术语的句法描述,称为名词短语;统计方法,利用词语组成术语一般会互相间接近并且重复使用这个特点[16]。不过使用名词短语的方法会产生太多非术语(精度低),使用重复短语会遗漏很多低频度的、有变化的以及一些单个词汇的术语。我们的挖掘技术并没有这些问题,并且我们可以找到不常提到的特征,因为我们只针对于用户已经表达了观点的商品特征。

    3 系统设计与实现

    系统的输入是一个商品,名称和一个有这个产品的所有评价的网页入口。输出是像概述部分展示的那样的一个评论总结。

    系统工作主要分为如下三步(如前所述):(1)挖掘顾客评论过的产品特征;(2)标识出每个句子中的观点语句并且确定观点倾向是否肯定;(3)总结结果。这些步骤划分为很多子步骤。整个流程如图3-1所示。

    开始输入时,系统首先下载(或者抓取)所有的评论,并且把他们放入数据库。然后寻找那些热点(或者高频率)特征,即有许多顾客表达了观点的商品特征。在这之后,观点词汇通过热点特征结果被抽取出来,并且在极性情感词汇表的帮助下进行情感倾向的确定。系统使用这些提取出来的观点词汇发现那些低频率特征。最后两步,确定每个观点语句的情感倾向并且产生最终的总结。注意,POS标注是指自然语言处理中的词汇标注,它帮助我们寻找观点特征。

  1. 上一篇:jsp+mysql无线点餐系统后台管理子系统设计
  2. 下一篇:基于边缘信息的图像文字定位
  1. 基于SpringBoot的分布式电商系统架构设计

  2. 面向电商评论的数据挖掘技术与系统

  3. 安卓平台的眼镜电商软件设计与实现

  4. Morphin算法面向非结构化道...

  5. 面向BPEL的服务组合流程定义工具

  6. php面向云计算的图形化程序构建方法研究

  7. 面向高校学生的旅游信息网站的设计与实现

  8. 杂拟谷盗体内共生菌沃尔...

  9. 当代大学生慈善意识研究+文献综述

  10. java+mysql车辆管理系统的设计+源代码

  11. 十二层带中心支撑钢结构...

  12. 大众媒体对公共政策制定的影响

  13. 中考体育项目与体育教学合理结合的研究

  14. 电站锅炉暖风器设计任务书

  15. 河岸冲刷和泥沙淤积的监测国内外研究现状

  16. 酸性水汽提装置总汽提塔设计+CAD图纸

  17. 乳业同业并购式全产业链...

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回