毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

无监督的互联网评论挖掘与情感分析技术(3)

时间:2019-10-06 15:10来源:毕业论文
inspire 2 inspiration 2 endear 3 relish (verb) 4 masterpiece 5 表2 名词字典的词语示例 Word SO Value Excruciatingly -5 Inexcusably -3 Foolishly -2 Satisfactorily 1 Purposefully 2 Hilariously


inspire    2
inspiration    2
endear    3
relish (verb)    4
masterpiece    5
表2  名词字典的词语示例
Word        SO Value
Excruciatingly    -5
Inexcusably    -3
Foolishly    -2
Satisfactorily    1
Purposefully    2
Hilariously    4
determination    1
inspire    2
inspiration    2
endear    3
relish (verb)    4
masterpiece    5
    尽管大部分的条目是单个词,但也存在多字条目,包含动词,形容词和加强词,在识别时采用一个类似正则表达式中写入多字条目。动词多字表达字典有152条(主要是动词短语,例如fall apart),增强字典多字表达词典有35个条(例如,a little bit)。多字表达优先于单字表达;例如,funny本身是正值(+2),但是如果短语act funny出现,它则被赋予负值(-1)。
表3  副词词典的示例
Word        SO Value
excruciatingly    -5
Inexcusably    -3
Foolishly    -2
Satisfactorily    1
Purposefully    2
Hilariously    4
    在语料库方面,要构建系统并运行我的实验,我使用Taboada and Grieve (2004) and Taboada, Anthony, and Voll (2006)描述的语料库,它有一个从8个不同种类(包括书,车,电脑,厨具,酒店,电影,音乐和电话)挖掘出的Epinions评论的400条文本的集合。我们命名它为“Epinions1”。在每个集合中,这些评论被分为25条正,25条负的评价,每个种类有50条,语料库中有总计400条的评论。我们通过评论作者提供的“推荐”或“不推荐”特性来决定一条评论的正负极性。
2.2  强化
    强化包括两个方面:增强作用和减弱作用。增强作用的比重并不是固定的,例如,例如,extraordinarily是比rather更强烈的增强器,所以为每个增加单词或减弱单词分配了不同的百分比。
    增强或减弱效果一方面要依靠增强条目或减弱条目。增强作用例如very,减弱作用例如barely,如果用good这个形容词,比如它本身的语义值为3,那么very good相当于给good一个增强的效果,very的加强比为0.2。则very good的得分则为 good的语义值 *(very的加强比+1)。而对于barely good, barely的减弱比为-1.5,则barely good的得分则为good的语义值 *(barely的减弱比+1)。
    同时,增强和减弱作用也依靠被增强或减弱的条目,例如将truly  fantastic和truly okay进行对比,同样的加强条目,但被加强条目的分值是不一样的。如,truly的加强比为0.3,在truly fantastic上, fantastic的得分值为5, 则它的得分就是 5*(1+0.3)=6.5,在truly okay上,okay的得分为1,则它的得分为1*(1+0.3)=1.3。故在本文方法中,每个加强词与它有一个相关的百分比;增强条目是积极的(百分比>0),然后减弱条目是消极的(百分比<0)。
表4  加强词词典的示例
Intensifier        Modifier (%)
slightly    −50
somewhat    −30
pretty    −10
really    +15
very    +25
extraordinarily    +50
    在此,再举一例详细说明,如果sleazy有一个SO值为-3,somewhat sleazy讲有一个SO值:-3*(100%-30%)=-2.1.如果excellent有一个SO值为5,most excellent将有一个SO值:5*(100% + 100%) = 10。增强器从最靠近的词开始至SO值词进行递归应用,如果good有一个SO值为3,则really very good有一个SO值为(3 × [100% + 25%]) × (100% + 15%) = 4.3。 无监督的互联网评论挖掘与情感分析技术(3):http://www.751com.cn/jisuanji/lunwen_40334.html
------分隔线----------------------------
推荐内容