⑶ 信息预测。随着互联网的蓬勃发展,网络中信息对人们生活的影响已经越来越不容忽视。某一个新事件的发生或者网络上对某个事件的热议观点都在很大程度上左右着人们的思维和行动。如,在金融市场上,网络上对某支股票的分析评价都在很大程度上左右着金融实践者们的行为,更能进一步影响着股市变化的趋势和带动股市的走向;又如,国外总统或议员大选的时候,很多参选者希望通过汇总选民的网络言论来预测自己是否能够获选。因此,信息预测变得非常必要。情感分析技术可以帮助用户分析互联网上的新闻、帖子等信息,并能够对某一事件的未来状况做出良好的预测。源:自~751-·论`文'网·www.751com.cn/
⑷ 自然语言处理领域。在信息抽取领域,抽取对象一般是反映客观事实的文本,情感分析技术可用于将文本中的主观句和客观句进行分离,提高信息抽取的准确率[3]。情感分析技术还可以用于智能问答系统中,当用户所问问题是情感分类相关的问题时,该技术可以帮助问答系统分析并提供比较准确的答案。此外,情感分析技术还可以用于挑选情感类相关信息并生成情感文摘,从而可以达到汇总归纳的目的。人机交互现状的愿望促使情感分析技术的快速发展。
1.2 研究现状
1.3 本文主要工作
目前国内外对文本分类和情感分析的研究越来越热,笔者认为有必要去学习和了解情感分析和文本分类等知识并进行有目的的研究,去实现一些经典论文的算法和此方面的系统软件,能够很好的了解基于互联网的情感分析和观点挖掘隐藏在互联网背后的应用。本文针对无监督方法的观点挖掘和情感分析进行了深入的研究和探索,设计出一个对已有文本进行无监督方法的关键词短语的提取并计算情感得分的系统。通过该系统,可以对已有文本评论句子进行词性标注,然后通过词性提取符合规则的关键短语,之后,通过搜索关键短语的词频进行计算,得出情感倾向得分,最后分析情感倾向性得分来对评论进行分类和推荐。
具体工作如下:
(1) 在python中用自然语言处理包nltk对已有文本进行词性标注,并将标注好的句子存储在一个新的文本中;
(2) 将标注好的句子按照两个连续性词语短语提取规则提取关键词短语;
(3) 用第三方包mechanize来模拟浏览器抓取所需要的搜索页面,并用正则表达式匹配提取所需要的关键短语的词频;
(4) 将关键词短语的词频按照PMI-IR算法算出情感倾向性得分(SO);
(5) 根据计算出的每条评论的SO进行分析看是否应该推荐这条评论。
2 论文相关工作
上一章主要是涉及了本文的研究研究背景和现状,以及介绍了本文所做的具体工作内容。文本情感分析研究的基础是对关键词短语的语义褒贬分析。而关键词短语的语义分析任务是去判断关键词汇的情感语义属性及其强度因子。其中比较经典的算法是Peter D. Turney 的PMI-IR算法[4,12]和kamps等采用的基于WordNet的语义方法 [8,9] 。
本文的基于无监督的情感分析和观点挖掘系统是主要是以Peter D. Turney 的PMI-IR算法为基础设计实现的。虽然之前也有很多学位论文和研究性论文也对这篇论文进行深入研究和再次实现,但对于这种经典算法的再现,以及对其他的人实现中未能完全实现的部分,本文都将进行完整的补充。文献综述
2.1情感分析任务
文本情感分析(sentiment analysis),是对文本中的主观信息(比如意见、观点等)进行分析与挖掘的一项研究课题。文本的情感分析又称意见挖掘,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程[14]。最初的情感分析源自前人对带有情感色彩的词语的分析,如,“极好的”是带有褒义色彩的词语,而“坏的”是带有贬义色彩的词。