菜单
  

       (5)TF*RF

    Lan等提出了一种新的权重计算方法,即TF*RF(其中RF(relevance frequency)意为相关频率),并通过实验证明了其优于TF*IG等一些方法[64]。其中RF的计算公式如式3-9所示:

                                                          (3-9)

        其中,定量2是由于对数操作是以2为底的,a,c的定义类似于CHI公式,即a为特征和类型共同出现的次数,c是特征出现而类型不出现的次数。

        本文采用的特征权重计算方法包括:布尔权重、TF、log(TF)、TF*IDF、TF*CHI以及TF*RF,旨在比较不同的特征权重计算方法对于情感分类的影响。

    3.4 SVM参数选择优化

    本文使用台湾大学林智仁(Lin Chih-Jen) 副教授等开发设计的LIBSVM  软件进行情感分类。LIBSVM是一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,该软件提供了很多的默认参数,减少对SVM所涉及的参数的调节;此外,还提供了交叉验证的功能。

    LIBSVM中两个关键参数为C和γ(gamma)。C为错分样本惩罚因子,即误差的容忍度。C越大,表示对误差的容忍度越小,即越不能容忍误差的出现[54]。C过大过小都会影响模型的泛化能力。γ是RBF(Radial Basis Function,径向基函数)核函数自带的一个参数。该参数隐含地改变样本数据子空间分布的复杂程度,γ越大,支持向量越多,反之则反。支持向量的个数直接影响着模型训练和预测的速度。来~自^751论+文.网www.751com.cn/

    3.5 分类结果确定

        本文中模型返回结果包括两部分,分别为:类别和隶属度,隶属度的分值越大,表明该样本属于该类的置信度越大[54]。隶属度的具体计算公式,如下:

                                                         (3-8)

    其中Si表示所有支持判别类的分数,Ks表示所有支持判别类的个数,K为所有类别的个数。隶属度设置目的是为了进行分类结果过滤,因为样本的不平衡和随机抽样等问题,仅靠类别标签来作为分类结果,其准确率较低,加入隶属度能够以设定阈值的方式来提高准确度。

    本文采用的类隶属度的算法为one-against-one(一对一)算法[65]。本文的情感分类是将评论语料分为两类,即是一个二分问题,故可看作上述算法的一个特例,基本思路与之一致。

    4 不同领域评论信息情感分类及结果比较分析

    上述内容介绍了情感分类的关键技术,以下从实验数据准备,SVM模型训练等方面逐步实现情感分类并进行分类结果分析。

  1. 上一篇:基于传播要素的微博网络传播研究
  2. 下一篇:电视真人秀节目《爸爸去哪儿》的审美价值取向
  1. 综艺类节目在PPTV的移动客...

  2. Flash动画在传媒领域中的发展与应用

  3. 论不同代系导演对文革题材电影的别样呈现

  4. 分析社会化媒体的发展对...

  5. 大众媒体对公共政策制定的影响

  6. 电站锅炉暖风器设计任务书

  7. 十二层带中心支撑钢结构...

  8. 中考体育项目与体育教学合理结合的研究

  9. 乳业同业并购式全产业链...

  10. 酸性水汽提装置总汽提塔设计+CAD图纸

  11. 河岸冲刷和泥沙淤积的监测国内外研究现状

  12. 杂拟谷盗体内共生菌沃尔...

  13. 当代大学生慈善意识研究+文献综述

  14. java+mysql车辆管理系统的设计+源代码

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回