情感文本分类国内外研究现状综述

菜单

如上所述，随着社会网络服务的越来越热，一些主观性的观点也越来越多的出现在网络中。网络信息的爆炸给用户给来了带来了很大的挑战，首先是 “丰度问题”，即99%的Web信息对99%的用户是没用处的；其次，当前主流引擎一般都采用关键词或者关键词逻辑组合作为检索条件，这种检索技术不支持语义检索，很难明确地表达用户的检索意图；之后是用户对web服务需求不同，而现有的Web服务只能提供“千人一面”的服务模式。针对这些挑战，可以通过情感分析和观点挖掘系统进行信息的筛选，选取对自己有用的特定的信息。64604

情感文本分类的研究起源与本世纪初期，虽然研究历史并不长，但是经过十年的发展已经成为国内外的一个研究热点[2]。最近几年在信息检索，自然语言处理和情感分析、数据挖掘等相关国际顶级会议上（如ACL、SIGIR、WWW等）涌现出了大量的相关文章。其中基于无监督的情感分析和文本分类文章的有Peter D. Turney[4]和Taboada[5,6]的。而国内相比国外来说相关工作起步晚，但最近几年发展迅速。在国内核心期刊、相关会议及学位论文中也出现了一系列文本情感分析的文章，如刘康[7]和赵妍妍[3]的论文网。2008年，中文信息学会信息检索专委会联合中科院自动化所、中科院计算所、中科院软件所、复旦大学等单位，举办了第一届中文倾向性分析评测研讨会（Chinese opinion analysis evaluation, COAE），得到了国内相关研究机构的广泛关注，国内外共有20家单位参加了评测，积极地推动了中文相关研究的发展[2]。

从上可以看出，目前国外在基于无监督的情感分析和文本分类研究已经有了一定的进展，特别最近几年发展特别迅速，应用也普遍偏向于互联网中的搜索引擎和一些电商的评论，微博等社会服务性网络；而在国内，虽然这些相关工作起步晚，但是现在的很多学术型会议和大量的学术性论文也在做这些相关工作，而国内随着谷歌的退出，百度的崛起，还有新浪微博，人人网的疯狂传播，观点挖掘和情感分析文本分类的应用的重要性也越来越能够体现。此外针对网络上传播敏感信息和违法信息，也需要应用这些技术进行监控和处理。然而我们现在却很少看到已成型的观点挖掘和情感分析的独立软件。