3.4.5 随机森林 16
3.5 本章小结 16
4 基于监督学习的微博情感分析的关键代码实现 17
4.1 结巴分词 17
4.2 特征提取 18
4.2.1 导入特征库 18
4.2.2 解析xml文件并写入csv 20
4.3 建模分类数据 23
4.3.1 训练模型 23
4.3.2 利用已有的模型进行分类 24
4.4 本章小结 24
5 实验与分析 25
5.1 实验数据集 25
5.2 实验性能评估指标 25
5.3 实验设计与结果分析 26
5.3.1 观点句识别 26
5.3.2 情感极性分析 27
5.4 本章小结 29
6 总结与展望 30
6.1 总结 30
6.2 展望 30
毕业设计体会 31
致谢 32
参考文献 33
英文翻译资料 34
1 绪论
1.1 研究背景
Web2.0时代改变了我们传统的交流方式,互联网以其丰富的内容,快捷的交互方式,给我们呈现了一个前所未有的崭新的世界。在过去,互联网的Web1.0更多的应用,是一个以数据为中心的网络,通常只以一个静态的方式呈现在网页和在线内容网站,工作人员大多是贡献的角色,有限的交互活动限制了广大用户的加入。Web2.0是以用户为出发点,人人都是网站的贡献者,用户可以随时随地的通过网络参与网上评论,发布网络信息,表达自己的观点,享受便利的互联网服务。参与网上评论的信息都是网上用户自己的所发所感,更加贴近生活,在其他网名用户之间也能产生共鸣,所以能够更多的吸引用户参与到这些交互中来。快速的信息交流极大地改变了互联网的形式,使用户平等的获得信息的机会,而不再受到资源的限制,这给广大网名的生活和工作带来了极大地便利。
伴随着互联网的快速成长,互联网用户从以往的在静态网页上传递信息的角色变成了彼此信息交互的角色,因此,这也使得很多社交网络进入了迅速发展的黄金时期,比如美国的Facebook和Twitter。现在很多用户通过在Web2.0网站上以多样化的形式发表对某一事物的看法,这些内容丰富多彩同时也是每个用户的真实情感。近年来,衍生出微博(micro-blog)这一概念,其中最具有代表性的是美国的推特(Twitter)和中国的微博(Weibo)。从2006年到目前为止,微博的用户群在如此短的时间内迅速增加,微博目前已经成为一个交互频率非常高的信息交互平台。根据近期对微博用户数量的大概统计,中国有近3亿用户,是一个数量非常巨大的用户群体,这个群体所隐藏的巨大财富也是无法估计的。微博从2006刚刚起步到现在晋升为我们普通网民必不可少的应用之一,为我们展现了新世界信息交互的窗口。
1.2 研究的目的与意义
微博的篇章结构不规则,用户必须在140个字符内表达自己当时的所发所感,微博虽微,但是传播信息的功能却不可小视。比如手机微博,每天24小时都有可能有信息产生。根据新浪微博官方统计表明,每个用户平均每三天就要发一条微博。更加值得关注的是,微博已经成为继邮箱、QQ之后又一重要的联系工具。最开始使用微博的是学生、计算机工作人员、城市里的高级白领等知识分子,到现在,最普通的大众也开始使用微博,甚至各类企业机构都开始使用微博作为推销宣传的工具之一。无论是微博的发布数目,还是微博的使用频率,都是呈现出上升的趋势,开始向大众化迈进。 基于监督学习的微博情感分析(2):http://www.751com.cn/jisuanji/lunwen_40623.html