2.3.2 迁移学习的方法 9
2.3.3 迁移学习与情感分类 9
3 基于迁移学习的微博情绪分类关键技术 11
3.1 文本分词技术 11
3.2 特征选择 12
3.3 特征权重计算 13
3.4 迁移学习算法 13
3.5 SVM支持向量机模型 15
4 实验结果与分析 16
4.1 实验数据 16
4.2 主客观分类 17
4.3 情感分类 18
4.4 情绪分类 20
5 总结与展望 22
5.1 研究总结 22
5.2 研究不足 22
5.3 研究展望 22
致 谢 24
参考文献25
图表目录
表4.1 实验数据样例 16
表4.2 标注数据数量 17
表4.3 主客观分类结果 17
表4.4 不同分类模型准确率 19
表4.5 情绪分类 20
图1.1 总体研究流程 4
图2.1 情感分析流程 6
图3.1 结巴分词过程 12
图3.2 KNN算法决策过程 14
图3.3 SVM最优分类超平面 15
图4.1 不同分类模型准确率 19
图4.2 情感分类结果 19
图4.3 情绪分类结果 21
1 绪论
1.1 研究背景
随着社交网络的迅速发展,微博在人群中的影响越来越重要。
中国互联网信息中心(CNNIC)在2015年2月发布了第35次中国互联网发展统计报告[1]。根据报告,到2014年12月为止,我国微博客用户有2.49亿,手机微博客用户有1.71亿。近几年,腾讯、搜狐等公司都减少了对微博客的投入,各个微博客服务商之间竞争形势没有以往那么激烈,因此一些用户开始向“新浪微博”转移,其用户数量相比以往稍有上升,“新浪微博”成为行业内的顶尖。
微博都是由用户自发形成,用户无论何时何地,只要连上互联网都可以分享自己看到的或者感兴趣的新鲜事,越来越多的用户乐于在微博上分享自己的观点或体验。可以说,微博已成为一种重要的社会传播媒介[2],它已然成为一个结合网络互动、媒体传播、社会舆论的平台。微博上的一条条博文可以是用户对某个产品或服务的个人态度和看法,也可以是用户对某个热门事件的评述,也可以是对国家政策的讨论等,这都体现了公众的社会参与度。这些信息表达了公众的各种情感态度,蕴含用户丰富的内心情感,比如说:“喜”、“怒”、“哀”、“乐”、“批评”、“赞扬”等。由于微博信息迅速膨胀,这些带有情感色彩和情感倾向性的微博每天以指数级的速度增长,如果仅靠人工对这些海量信息的收集、处理来抓取其中丰富的含义,首先需要大量人工参与,其次人工的时间成本也需要被投入。采用机器智能来分析博文带有的主观性的情感色彩和情感倾向成为迫切需求,这也是解决上述问题的好办法。这就是文本情感分析(Sentiment Analysis) [3]所研究的问题。
然而,在进行情绪分类时,需要进行情感分析的微博常常是大量未标注的或者只有少量被标注了,无法进行下一步的研究统计结果不让人满意。并且即使有人工标注,也是需要投入巨大的人力、物力、时间成本。如果能从稀少的微博数据或者是大量的无标注微博数据中得到情感信息,这将是值得研究的。迁移学习是解决这类问题常用的手段[4]。迁移学习旨在利用从其他任务学习到的知识来帮助解决目标任务[5],简而言之,即举一反三。本文将把迁移学习策略应用到微博情绪分类中去,通过已有的标注过的微博数据情感分类的结果来解决新领域的微博数据情感分类问题。 基于迁移学习的微博情绪分类研究(2):http://www.751com.cn/xinwen/lunwen_29314.html