对中文文本语料情感倾向的分析是近几年来在国内机器学习方面逐渐兴起的研究热点。在本章的内容中,我们首先对中文文本情感倾向分类的研究背景做了简要概述,其次介绍了中文文本情感倾向分类在实用性方面的研究意义及数据集测试(训练)的重要含义,最后我们简要的介绍了中文文本情感倾向分类的研究现状。
1.1 情感分类的研究背景
随着互联网日渐快速的发展及普及,作为广大互联网用户群中的一员,我们不仅仅是网络信息的读取者,同时也是网络信息主动创造者大军中的一员,这也在一定的程度上造成了网络信息的极大丰富,让我们进入到了一个信息极度繁杂的时代。在《中国互联网络发展状况统计报告》中提到:截止到2015年12月,中国互联网的用户规模达到了6.88亿人,互联网的用户普及率达到了50.3%,超过半数的中国人已经成为了互联网用户大军中的一员,其中有90.1%的网络用户通过手机等便携式设备上网,同时,移动互联网络的普及还为社会塑造了全新的生活状态,移动互联网络对中国社会的影响已逐步进入到了新的阶段。报告中还提到,截至2015年12月,中国互联网新增网民3951万人,其增长率达到了6.1%,相较于2014年提升了将近1.1个百分点。
互联网中的信息大都以文本文字的形式在人与人之间进行传递,随着人们在web中表达自己观点的情形变得越来越普遍,针对文本情感倾向的研究也变得越来越重要。在本文中,我们认为中文文本情感倾向分类是一个类似于二元分类的问题,即通过分析判断某语料文本的情感分类是倾向于褒义色彩还是贬义色彩(即分析判断其极性是反语还是非反语)。由于文本情感倾向分类的复杂性,使得分析并判断语料文本中具有哪些词性的词语含有更多的情感倾向色彩或具有哪些词性的词语对分类的帮助更大显得尤为重要。
1.2 情感分类的研究意义
网络用户通过微博、博客、即时通讯工具等多种渠道传播或发布了大量带有个人主观情绪的文本文字信息,同时,在互联网平台上发布各用户对某事物的主观情感已逐渐成为了一种普遍潮流,尤其是在对于网上购物、旅游、观看影视剧集等方面产生了重大而深远的影响。在互联网普及之前,个人用户对其将会购买的物品的相关信息的了解往往来自于身边朋友的介绍与推荐,在获得相应产品的‘口碑’之后再做出是否购买的决定。而如今,由于电子商务的发展与普及,网购已成为人们日常生活中一种重要的购物方式,因而从网上获取其他用户对某产品的主观信息来做出是否购买的决定已经成为了一种普遍潮流。对于企业而言,了解自身产品的优劣并收集客户的市场满意度是极其重要的,相较于利用传统的问卷调查及电话回访等形式收集市场对其公司产品的反馈,利用网络问卷等基于互联网的方法来收集用户对产品的情感倾向度(满意度)显得更为高效和便捷。对于政府而言,收集网络热点信息,并及时地对其进行归纳与分析,可以更好且更快捷的了解普通人民大众对于热点问题的观点及情感倾向,了解社会舆论的发展方向,及时地研发策略以拦截消极有害的信息并保留积极正面的信息,这对于引导大众舆论的正向发展具有积极的意义。
互联网信息的传播速度极快,内容繁杂且海量,并每时每刻都在不断地增长变化着,因此仅仅依靠人工来收集、分析和整理网络文本信息,并对信息作出综合判断,是十分低效且不实际的。对中文文本情感语料进行分析,使我们可以高效率的分辨海量信息的情感色彩倾向,判断其褒贬义色彩,并掌握某些关键词汇对情感极性的影响力大小。 情感分类语料标注及预测系统设计(2):http://www.751com.cn/jisuanji/lunwen_52051.html