然而商品评论大多为自然语言构成,商品评论信息飞速增长,评论内容的千差万别和质量的参差不齐。海量而繁杂的数据仅靠人工阅读既费时费力效率也不高,同时容易产生错误【5】。也很难让用户和企业全面地了解评论的概况,不能有效取得产品的关键特征信息。对评论进行准确快速处理的迫切需要,催生了对商品特征进行评论挖掘和分析的研究。即情感分析技术,分析文本中所表达的语义倾向性,挖掘顾客的主观情感,从而将该文本判定为正面或负面评论。它可以分为文本层次的情感分析、句子层次的情感分析、还有基于特征的情感分析【6】。它分析的颗粒是越来越小的,有判断文本的感情倾向到句子的感情倾向,再具体到句子中的对象【7】。
1.2 研究的目的和意义
产品评论的情感分析技术的研究目的即要从大量关于产品或服务的网站用户评论中挖掘出对于用户有价值的信息。同时,简单高效的自动化提取技术能极大的提高整个评论挖掘的效率,从而使得海量的评论信息能发挥其应有的作用。
对产品评论抓取是十分有价值的。 产品评论的数据充足,角度多样,还可以免费浏览,降低了获取用户反馈所需要的成本。同时产品评论也是双向性和与时俱进的。用户能及时了解产品的信息变更,及时改变购买决策,商家也可以及时更改产品设计。
1.3 国内外研究现状
1.3.1 国外研究现状
1.3.2 国内研究现状
1.4 本文研究内容
本文通过早期资料搜集和归纳整理,了解基于字典的无监督方法的原理和主要研究方法,并尝试使用这些方法对评论文本进行处理,分析背后情感极性。
本文的组织结构如下:
第一章:介绍本论文所属课题在国内外的研究方法和背景,以及研究的意义。
第二章:介绍论文所采用的方法
第三章:系统阐述具体实施细节
第四章:实验评估和分析
2 主要研究方法
基于字典的无监督情感分析方法,主要是根据被分析的文本的句子中的单词来进行分析的方法。通过对文本中单词得分和各种规则的计算总和,得到文本的总得分,若为正,则为正面评价,若为负,则为负面评价。
2.1 字典设置
在基于字典的无监督方法中,字典是由手工创建,单词绝大部分抽取于商品评论语料库,同时结合了一些其他的字典。使单词能具有针对性和一定的覆盖度。通过一个以英语为母语的人对单词进行打分,然后再由3个监督员进行检查和修正【10】。单词不考虑其时态,仅使用原型,每个单词对应一个语义值,该值的范围为 +5到-5(整数)。当语义值为正时代表为积极的极性,当语义值为负时,则表示为消极的极性。积极和消极在单词先前极性的基础上决定了这个单词在大多数情况下的意义。
本文所用字典分为单字字典和多字字典。分为形容词,名词,动词,副词词典,同时也包含加强词字典。增强词字典包括2,252个形容词词目,1,142个名词,903个动词和745个副词。它的排列方式为一个词对应一个增强或减弱百分比。
表1 名词和动词字典的词语示例
Word SO Value
Monstrosity -5
hate (noun and verb) -4
disgust -3
sham -3
fabricate -2
delay (noun and verb) -1
determination 1
- 上一篇:有向图的特定模式搜索和优化
- 下一篇:ASP.net+sqlserver单位办公用品管理系统设计+源代码
-
-
-
-
-
-
-
乳业同业并购式全产业链...
中考体育项目与体育教学合理结合的研究
河岸冲刷和泥沙淤积的监测国内外研究现状
java+mysql车辆管理系统的设计+源代码
大众媒体对公共政策制定的影响
十二层带中心支撑钢结构...
酸性水汽提装置总汽提塔设计+CAD图纸
当代大学生慈善意识研究+文献综述
电站锅炉暖风器设计任务书
杂拟谷盗体内共生菌沃尔...