观点挖掘和情感分类是随之而兴起的一个研究领域,它从文本的情感表达入手对文本进行分类,将其分过正面(positive)和负面(negative)。如果这样我们可以清晰的知道文本是褒义的还是贬义的。
1.2 课题研究的目的及意义
观点情感文本分类的主要任务是先进行提取文本的特征,然后构成特征模型,最后进行文本的分类,分类结果一般为positive和negative两类。之所以文本分类成为在海量的评论或者杂乱的信息里面获得有效地知识的方法的原因是:文本分类可以在大量的无规则文本信息里面准确的分类出用户所需要的重要信息。所以文本分类已经成为观点挖掘(情感分类)领域里的有价值的重要技术。全球众多公司、政府以及广告商都对观点文本分类问题有着很强的需要和要求,所以这领域的研究得到了很多专家和学者们的重视。情感分类已经在各个方面上起到重要作用。
这里我们总结了几个具体的实际应用:
搜索引擎:第三代搜索引擎的特点正是个性化,分类化。用户可以直接搜索到某个产品、服务和事件的正面和负面评论。还可以搜索两个类似产品的比较评论。
过滤系统:自动识别出评论者对政府的看法和对组织机构的倾向看法,对那些拥有攻击性语言和言论进行过滤或者屏蔽。
推荐系统:对于用户给产品的评价和意见进行自动分类和管理,挑选出值得推荐的产品给其他的用户。例如,一部电影的评论,对想观看的这部电影的用户给出这部电影的内容或者意见。另外,还能帮助服务机构自动分类产品或者给出顾客对商品的意见,从而省去了繁忙的人工服务。
问答系统:对问题的答案进行情感的自动分类,避免让顾客得不到满意的答案。
1.3 国内外相关技术发展现状
1.3.1 观点文本分类的主要研究内容
1.3.2 观点文本分类的应用现状
1.3.3 本文研究重点以及需要解决的问题
本文主要研究内容的观点文本分类的问题,主要包括以下2个问题:
1)在进行情感分类时,在不同的权重和不同的特征选择的情况下;比如权重有BOOL型,绝对词频(TF),TF-IDF;特征选择有信息增益(IG),文档频率(DF), 统计量(CHI)等方法下哪个实验结果更好于其他方法。
2)在情感文本特殊处理—否定转移后,正确率提高了多少个百分点。
1.4 本文主要研究内容与组织
本论文的主要研究内容有以下几个方面:
1.权重的选择:在使用不同的特征权重方法下对文本分类实验结果;比如,TF,TF-IDF,BOOL这3种权重的比较。
2.特征选择:使用了DF(文档频率),IG(信息增益),CHI( 统计量)。
3.分类器选择问题:SVM可以把整个句子输入进去。还有就是不是很稳定。SVM有很强的学习能力,利用较少的样本训练出有很高性能的分类模型。但是在事实上维数一般在几千几万之间,这就意着如果输入太多速度会变慢+很难确定维数。
文章组织结构如下:
第一章详细的介绍了观点文本分类的背景,国内外关于这方面的发展情况,并简单的阐述了本文的主要内容。
第二章介绍了文本分类的基础知识:权重的选择,特征选择方法的选择,分类器的选择。 观点文本分类系统的研究与开发(3):http://www.751com.cn/jisuanji/lunwen_64961.html