本文研究选取了两个不同领域的微博语料,分别是训练集生活领域的微博数据和测试集H7N9事件的微博数据,通过模型迁移来对H7N9事件的微博数据进行情感分类,并检测其准确率,最后进行情绪分类。旨在考察基于迁移学习的微博情绪分类能否及时准确分析热点事件的公众情绪,以做到对社会舆情的监测,为政府或企业控制与管理微博情绪提供基础。
1.2 研究意义
本研究的意义将从三方面来阐述,一是微博在社会舆论传播的重要性以及微博所反映出的公众情绪对企业、政府决策的帮助,二是迁移学习的意义,三是迁移学习在微博情绪分类的实际意义。
就微博来说,它是由用户自发产生内容,且传播速度快速、传播范围深远、社会影响力十分积极。它为用户参与社会讨论提供了场所,这是承载一个社会话题的公众空间。用户自发产生对热点事件、公众人物、消费产品、影视等的个人评价[6]这些内容,往往会经过社会化媒体的集市式N级共享传播[7],迅速地形成了大众舆论。不仅横向传播快,纵向传播涉及的范围也很广泛。这些大众舆论所包含的情绪对于公司或政府部门的决策是一种强有力的支持。因此,对微博情绪进行识别与分类,不仅能让企业了解用户对其产品的情感态度,还可以了解到用户对产品的信赖程度,一旦市场出现不可控制的状况,帮助企业能够不慌不忙及时应对;还能帮助政府对民众的情绪走势有大致的掌控,对可能出现负面情绪螺旋现象[8]的事件及时做出反应,防止非理性情绪和不法分子通过微博平台传播的谣言在网络中蔓延,,以此保证社会的稳定与和谐。
就迁移学习(Transfer Learning)来说,它是基于现在已经存在的、已经被知道的知识,来帮助需要帮助的对象。传统机器学习一般有三大问题[9],迁移学习有助于解决这些问题:一是对传统机器学习来说,对训练数据需要大量标注不论哪个领域而现实没有大量且新的标注数据的问题;二是传统机器学习假设训练数据与测试数据服从相同的数据分布而带来数据分布不同的问题;三是一些训练数据过期无法使用的问题。迁移学习合理的利用这些大量的、已经被标注过或者经过正确率认可的训练数据,没有造成资源浪费,十分环保。
由于微博热点事件的突发性和实效性,传统的机器学习情绪分类需要对语料进行大规模的标注,需要耗费大量的人力物力,等标注完成,热点事件可能已经失效,对舆论的检测与预测的效果达不到预期。而迁移学习策略通过“举一反三”,用已经训练好的数据,“迁移”到需要进行情感分类的数据上,来得到目标数据的情绪分类结果,省时省力。因此,在社会化媒体至关重要的今天,对基于迁移学习的微博情绪分类研究具有重要实际研究意义。
1.3 研究思路
本文主要研究的是基于迁移学习方法的中文微博情绪分类。对于目标领域待情绪分类且没有标注的H7N9微博,采用基于规则的主客观分类、基于IBK、NB、SMO迁移学习策略、基于支持向量机的情绪分类模型,利用有标注数据领域的微博辅助待分类领域的微博数据,最终完成情绪分类。主要内容包括:微博数据的采集、文本预处理、目标数据主客观分类、目标数据情感分类、目标数据情绪分类。首先对文本情感分类、微博情绪分类、迁移学习技术的研究背景、意义等进行介绍;其次介绍情感分类模型和迁移学习过程中所涉及的一些关键技术,包括结巴中文分词[10]、特征选择、特征权重计算、迁徙学习模型、SVM分类模型;最后进行实验研究,得出目标数据的主客观分类、情感分类、情绪分类,进行实验结果分析并根据实验结果给出相关建议。 基于迁移学习的微博情绪分类研究(3):http://www.751com.cn/xinwen/lunwen_29314.html