1.3.3 本文研究重点以及需要解决的问题 4
1.4 本文主要研究内容与组织 5
2 观点文本分类基础知识 6
2.1 引言 6
2.2 相关研究工作 6
2.2.1 传统文本分类的研究概览 6
2.2.2 基于情感字典的观点文本分类的相关研究 7
2.3 特征权重和选择 9
2.3.1 绝对词频模型(TF) 11
2.3.2 布尔模型(BOOL) 11
2.3.3 TFIDF 11
2.4 特征选择方法 12
2.4.1 概念 12
2.4.2 特征选择详细介绍 12
2.5 情感分类模型 14
2.5.1 朴素贝叶斯模型(NB) 14
2.5.2 支持向量机模型(SVM) 14
2.6 本章小结 14
3 情感文本特殊处理——否定转移 16
3.1 概念 16
3.2 为什么使用否定转移特殊处理 16
3.3 否定转移的流程图 16
3.4 否定转移处理算法设计 17
4 程序设计及流程图和思想 18
4.1 引言 18
4.2 程序的流程以及主要思想 18
4.3 程序的算法设计 18
5 实验结果及分析 20
5.1 引言 20
5.2 开发平台与实验设置 20
5.3 实验结果 20
5.4 实验分析 25
结 论 26
致 谢 27
参考文献 28
1 引言
1.1 课题背景
随着近年来电子商务,博客,社交网和通讯工具蓬勃的发展,以及user generated content(用户生成文本)的产生,大多数用户有了可以发表自己意见的空间。带有主观色彩的言论或评论随之而来。比如顾客对某产品,某服务态度的评价,对某电影的评论,在博客上发表的对某件事的个人意见等等。生产厂家需要知道顾客对某种产品的意见和观点要求,新顾客还想知道老顾客使用这产品的好处和意见,但是成千上万的评论很难让人不知道从哪里下手。还有,很多顾客想得到某些产品的负面评论和服务缺点,这样可以知道这些产品的缺点或者服务缺点,所以他们不想花费太多的时间用在阅读正面评论上;其次,一个人想观看一部电影的时候他们只想得到这部片的正面评论而不是负面的,只有这样才能知道这部片的看点和内容。利用这些丰富的主观资源,对这些主观评论进行处理和分析,以及满足不同评阅者的要求,是当今现实生活的焦点。然而,近年来,人们可以发现网上讨论组和评论网站在快速的发展(例如,“纽约时报”)中重要的特征是他们的情绪,或者是整体的看法——列如:是否产品评论是正面的还是负面的。标记这些文章与他们的情绪会给读者提供简洁的总结;事实上,这些标记的吸引力和价值会添加到www.rottentomatoes.com 这种网站。这两个标签的电影评论不包含明确的评级指标和规范的个人的评级方法。情感分类也将在商业智能应用和推荐系统是有用的,用户输入和反馈可以迅速概括;事实上,一般情况下,免费的形式回应自然语言格式的情感分类。此外,也有过滤消息的应用。