由前文可知,有关于中文文本语料情感倾向的研究在理论研究方面和社会生活实际应用方面都具有极其重要的价值及意义。
1.3 测试(训练)数据集的重要性
数据库通常是企业、公司最有价值的资产。而不同于应用程序随时随地的可更改性,满载数据的数据库在程序更新时通常会将数据库及数据库内信息小心翼翼的移植过去。同时,位于多个不同系统的多个不同的应用程序经常会在同一时刻使用到同一个数据库。由上可知,构建一个约束性良好且数据结构完整的数据库是一个系统建立的重要基础,我们应该谨慎的对待数据库的构建过程。
一个好的数据库不是靠程序设计者一次想当然的需求分析而建立的,数据库最终及其最重要的意义是能够良好的应用于系统程序中并保证数据集的完备性。因此,对于数据集的测试和训练就变得尤为重要,即:分析数据集中各个内容的联系性、分析各个数据集间的联系性、分析数据集与数据库间的联系性。
数据集是由数据组成的一种集合,又被称为资料集、资料集合或数据集合。通过对数据集的测试及训练,实现对数据的深层挖掘,并获得有关数据的更多的宝贵信息。通过对数据集的测试及训练,有利于加深对数据的了解;通过对数据集和相应实际操作的换位思考,不断地对相关数据库在系统程序中的操作部分进行改进和优化,在增加数据准确性的同时也提高了系统的实用性及完备性。
数据作为数据库及数据集的重要组成部分,通过对数据集的测试及训练,增加数据的准确性,挖掘数据的隐藏信息及数据间的联系性,对系统的设计具有重要的意义。
由前文可知,就该次系统设计实验而言,对数据集进行测试和训练是必不可少的。
1.4 中文文本情感分类的研究现状
2 系统的相关概念及技术分析
2.1 情感倾向分类
2.1.1 情感倾向分类的定义
在现实生活中,人们对于一些事物的情感倾向都是具有两面性的,如具有积极性或消极性、褒义或贬义等。专家们普遍认为,中文文本的情感倾向分类是一个二分类的问题,就是可以把中文文本的情感倾向分为正面与负面两类,一般地,中文情感分类器的构建过程主要包括:中文文本语料的收集、语料的处理及表示、文本分类器训练和文本分类器测评等。在本文中我们将中文文本情感倾向的分类分为反语和非反语,即:文本文段是否具有讽刺性或文段的实际意义是否与其字面意思相近(或相同)。
2.1.2 情感倾向分类的实现
情感,作为我们对事物整体态度中的一部分,是生理上的一种既稳定又复杂的生理体验态度及评价,源Z自L751W文~论`文]网[www.751com.cn。《心理学大辞典》中就有提到:“情感是人对客观事物是否满足自己的需要而产生的体验态度”。同时在心理学课程中还认为:情感也是人们面对客观事物时的一种体验态度。
在本次的系统设计中,我们设计并实现了一个小型的基于C/S模式的情感分类语料人工标注及预测系统,通过人工收集文段标注语料并存入语料库,由已登记的用户进行人工标注、判断文段极性值,然后利用分词器对各个文段进行分离。结合文段的词汇及文段的极性值,构建分类测评系统,以作为构建中文文本情感倾向预测功能的实现基础。为以后实现的基于B/S模式的自动测评系统奠定了必要的基础。