随着微博用户数量疯狂的增长,潜藏在微博领域的商机也渐渐被挖掘出来,如信息发布与获取、社会事务讨论、微博问政、商业营销……,微博已经全面渗入社会各个领域。越来越多的网名用户选择在微博这个平台上记录自己随时发生在身边的事情或者评论网上其他人的微博进行信息交互,因为微博这个平台几乎无任何成本,无需任何知识储备,并且它的操作简洁易懂,简简单就可以关注对政治事件、娱乐人物、商品等的动态。微博中蕴藏的巨大信息量无论是社会机构、政府,还是其他网上用户都具有极大地参考价值。比如:对商家而言,可以通过用户反馈改进自己的产品;对于消费者而言,可以参考其他用户使用过该产品的反馈确定是否购买这件商品。
微博中含有的信息量巨大,因为话题来自不同层次群体的用户或是不同机构的信息,所以微博话题也是千奇百怪、丰富多彩,除此之外,信息内容多为口语化,且不规整,尽管如此,微博中还是隐藏了巨大的商业价值。微博上的互动信息都是用户切身的有感而发,与自身每日的生活息息相关,所表达的都是真实情感,所以如果获得这些微博信息,就可以对这些信息做情感分析。通过对情感分析的研究:商家可以利用用户对商品的反馈做进一步改进;名人可以通过微博平台做个人宣传,增加自己的知名度,通过分析网民对自己的评价可以更好地定位自己。
对于海量的数据,仅依靠人工浏览数据来获取有用的信息是一件十分困难的事。尽管英文微博情感分析已经有一段历史,但是中文微博情感分析研究还处于起步阶段。本文以CFF公开发布的腾讯微博数据集为研究对象,进行以下两个任务:观点句识别和情感极性分析。
1.3 国内外研究现状
1.3.1 文本情感分析研究现状
1.3.2 微博情感分析研究现状
1.4 论文的主要研究内容
微博情感分析主要任务是判别微博是否有情感,如果这个微博句子有情感,再判别是正向情感还是负向情感。本文主要采用多特征、监督学习的方法。首先将微博句子进行分词预处理,然后抽取多类特征,利用七种分类器分别训练模型,最后比较这几个模型的实验结果。
本文研究的数据来源于NLP&CC2012。评测数据中采用的语料集来自腾讯微博,并按照话题分类,广大用户会对某个特定领域的事件或人物进行讨论。下面对本文所研究的评测任务进行介绍。 基于监督学习的微博情感分析(3):http://www.751com.cn/jisuanji/lunwen_40623.html