表4.10 当当网书籍评论的整体评价 25
表4.11 当当网书籍正面评论的评价指标 25
表4.12 当当网书籍负面评论的评价指标 26
表4.13 三种评论的分类结果宏平均F1值 27
表4.14 科学网博客评论数据不同阈值评价指标(TF-IDF) 29
表4.15 科学网博客评论数据不同阈值评价指标(TF-RF) 29
表4.16 科学网博客评论数据不同阈值评价指标(TF) 30
表4.17 课程网酒店评论数据不同阈值评价指标(TF-IDF) 31
表4.18 携程网酒店评论数据不同阈值评价指标(TF-RF) 32
表4.19 携程网酒店评论数据不同阈值评价指标(TF) 33
表4.20 当当网书籍评论数据不同阈值评价指标(TF-IDF) 34
表4.21 当当网书籍评论数据不同阈值评价指标(TF-RF) 35
表4.22 当当网书籍评论数据不同阈值评价指标(TF) 36
1 绪论
情感分类研究正如火如荼般进行,以下从选题背景、情感分类的国内外研究现状、研究意义、本文的基本研究思路以及组织结构等方面概述本文的主要研究内容。
1.1 选题背景
1991年互联网之父Tim Berners-Lee 创建了史上首个网站http://info.cem.ch,这一创举直接将全球带入了互联网时代。风风雨雨几十年,历经Webl.0网站到用户的单向行为到Web2.0的双向互动,互联网在很大程度上改变了人们的生活。集共享、虚拟与开放于一身的互联网已经逐渐成为人们情绪表达的新平台,这些表达多数表现为无结构的评论文本形式,如产品评论、服务评论、博客评论等[1]。
伴随着评论信息激增而来的是评论信息的杂乱无序,如何在特定需求下有效地组织数据以获取最相关的信息成为摆在面前的一道难题;其中,对各种评论信息从情感倾向性角度进行分类组织,在实际应用中有迫切需求。情感分析研究由此应运而生。所谓情感分析,就是确定观点持有者对于某个主题的观点,其中,观点可以是他们的判断或者他们言谈中的情感表达[2],这也说明了情感分析不同于传统文本信息处理的方面,即前者注重的是文本中所传达的情感。文本情感分析最为关键的一点就是文本情感分类,通过对文本中的观点、态度的分析来判断文本的情感倾向,并将结果表示为类别形式[3]。
文本情感分类应用广泛,目前已包括:社会舆情分析[4][5]、产品质量与服务评价、有害信息过滤、书评、影评、博客评价等方面。
本文研究选取三个不同领域的评论信息进行情感分类研究并对分类结果比较分析,旨在考察情感分类方法在不同领域的差异性及领域适应性。
1.2 国内外研究现状
随着社会化媒体的蓬勃发展,情感分类的重要性渐为人知。国外于上世纪90年代末开始情感分类的研究,Vasileios Hatzivassiloglou、McKeown等人可以视为该研究领域的先驱。2004年,AAAI成功举办以“探索文本的观点和情感”为主题的会议,该活动加速了情感分类的发展[6]。此后,情感分类的研究舞台日益扩大。众多国际顶级会议(AAAI 、ACL 、COLING 、SIGIR 等)均收录了关于文本情感分类研究的论文[3]。