(3)在评论信息可信度计量文度划分和特征选择方面,学术界还没有达成一致的观点,究其原因主要是缺乏科学有效的方法对特征选择的可靠性和准确性进行验证,这就需要构建具有普遍性以及可靠性的语料库,制定科学的可信度评判依据,选取可信度特征并进行实证分析,进而选择具有科学性、普遍性的特征作为实验计量进行实验。
(4)在评论信息可信度计量方法方面,由于在线评论信息的短文本、高文度特征,传统的自然语言处理技术并不能很好地对其进行处理,这加大了评估评论信息文本内容可信度的难度;个别采用具体方法对评论信息可信度进行量化的研究主要集中在国外,选取的语料为英文,提出的商品评论信息质量评价标准也是依据观察和经验得到的,缺乏理论依据,所以存在偏差。
1.3 本文的主要研究内容
本文以在线商品评论信息为研究对象,选取ALexa排名较高的评论发布平台、开发在线评论自动抓取工具、构建具有普遍性和可靠性的标准实验语料集;通过参考其他学者以往的研究成果,将以往研究中所提出的影响商品评论信息可信度的因素作进一步的细化,并结合现有主流网站评论信息的特点对可信度影响因素进行完善,设计可信度特征调查问卷,通过实证分析方法获得各影响因素对评论信息可信度的影响程度和影响方式。
接着通过研究国内外相关领域学者提出的评论信息可信度计量模型及相关算法,借助实证分析研究成果选择评论信息可信度特征,构建评论信息可信度的可量化特征集,探索出基于SVR模型的商品评论信息可信度计量模型。
然后根据构建的特征集创建特征识别词典,开发出可信度特征量化处理程序,对评论信息相关特征进行识别并转化为可信度计算模型能够识别的数据形式,完成评论信息可信度的计算;接着再调整相关参数,优化计量模型,最终完成了评论信息可信度的计算。
最后,先将获得的可信度值与人工标注的可信度平均值进行比对,再将该可信度值与对应的原始评论信息内容进行匹配,最后根据该值大小对评论信息进行升序和降序排列,观察实际的评论信息可信度识别效果,对全文做出总结和展望。
1.4 本研究的特色
(1)在特征的选取上,通过调查问卷的方式,对调查结果进行分析,根据实证分析结果选取商品评论信息可信度特征,在一定程度上保证了所选特征的科学性和代表性;在评论信息可信度值人工标注阶段,要求标注者对各条评论信息可信度值进行标注并给出可信度值过高和过低的评判依据,再对评判依据进行汇总并反馈到初步甄选的特征集,通过修正获得最终的可信度特征集,降低了可信度计量实验中所选取的特征文度,减少了工作量。
(2)在对特征进行量化时,研究没有完全地直接根据词性特征去求得特征值数据,而是首先将特征库细化,例如将情感特征库中的程度副词词典根据词的效用分为“加强型”和“减弱型”;正面词词典和负面词词典也根据词的情感极性和情感强度完成细化分类;接着根据情感特征量化算法求得对应的情感特征值,提高了特征值数据的区分度和精确度。
(3)在对商品评论信息的可信度进行评估时,研究利用建立的基于SVR的商品评论信息可信度量化模型对评论信息可信度进行计算,通过获得的可信度值完成了对评论信息可信度最直观的评判;同时,由于每个人的对可信度值的评价标准不尽相同,所以可信度值的意义不仅是简单着眼于求得的可信度值,更多的是通过该模型完成对高可信度评论信息的识别和对低可信度评论信息的过滤。 基于SVR支持向量回归模型的在线商品评论信息可信度分析研究(4):http://www.751com.cn/shuxue/lunwen_11331.html