国内对开始情感分类的研究要远晚于国外,直至近几年才陆续出现相关研究成果,主要集中在将英文情感分类方法应用于中文环境。为响应国际形势,文本情感分类逐渐成为国内的计算语言学会议的主题。其中最为经典的当属JSCL’2005 中题为“评述新闻报道或文章色彩”的报告,该报告引起研究者的广泛兴趣[7]。同年10月,首届国际情感计算及智能交互学术会议的开幕更是将情感分类上升至人脸情感与姿态处理、情感语音处理等众多领域。此后以情感分类作为主题的相关会议愈演愈烈,越来越多的研究者或机构投身其中。
国外的情感分类研究起步早,相关的基础设施齐全,研究语料丰富,故在情感分类方面已经取得了一定的成果。然而相较于国际水平,国内情感分类的研究水平明显滞后。与国外的差距主要表现在:
(1) 中文本身存在的问题:中文情感分类涉及中文分词问题,分词质量
影响情感分类的效果,目前中文分词技术已基本成熟,但尚有一些问题仍未解决,还需要深入研究。
(2) 基础资源匮乏问题:国内没有媲美WordNet 可用于情感分类的词典,
以及大规模的中文情感分类测试语料。
(3) 目前国内的情感分类研究主要是将国外的方法应用于中文环境,尚
无代表性的创新成果。
1.3 研究意义
前期调研结果表明,文本情感分类在不同领域的分类效果不尽相同,究竟哪些领域效果更佳,目前尚没有系统全面的介绍。针对这一现状,本文主要研究如何通过机器学习自动进行文本情感分类,并比较不同领域情感分类的效果。
本文利用SVM(Support Vector Machine, 支持向量机)的分类模型,选择三个真实的数据集,即科学网 博客评论数据集、当当网 书籍评论数据集和携程网 酒店评论数据集,进行情感分类效果比较。本文主要研究意义如下:
(1) 理论意义:情感分类研究日益精细,关于中文评论情感分类的研究已
有一些成果出现,但针对不同领域的情感分类效果差异性比较研究尚比较缺乏。
(2) 应用价值:针对不同的领域,给出适应于该领域的情感分类方法(包
括特征选择、权重计算、分类模型选择等)从而提高情感分类的实际应用效果,提升评论信息的实际应用价值。
1.4 本文的研究思路
本文的研究目的是进行三个领域评论信息的情感分类效果的比较,首先对情感分类相关研究工作进行介绍;其次介绍情感分类模型训练和预测过程中所涉及的一些关键技术,包括MMSEG 中文分词、特征选择、特征权重计算、SVM参数选择优化;最后进行实验研究结果分析,包括同种语料不同特征权重算法的情感分类效果比较,同种特征权重不同语料的特征权重比较,以及不同特征权重阈值对于情感分类性能的影响。本文总体研究框架如图1.1所示,情感分类实现流程,如图1.2所示。
1.5 本文的组织结构
本文分为如下5个章节。
第一章为绪论,主要分析本文的研究背景,解释文本情感分类及其国内外研究现状,并指明本文的研究意义,同时简单描述了本文工作。