普通话情感语音数据库主要是为了满足普通话情感语音的特征分析以及语
音情感识别研究的需要而建立的。从这两点研究目的出发,自然型情感语音和引导型情感语音比较适合作为普通话情感语音数据库的语料。而现在语音库的获取常用两种方法。一种是录制法[10],就是邀请不同性别不同年龄的人自己录制语音,该方法是目前大多数研究者普遍采用的情感语音获取方法,这种方法的优点是可以在短时间内获得所需的不同情感,不同性别的语音资料,缺点是自然度和真实度比较差;另一种方法是剪辑法[10],从各类媒体信息中剪辑出我们所需的语音材料,这种方法的优点是自然度和真实度高,情感表达直接由心理状态触发而成,并有上下文关联信息。更为重要的是,多媒体素材中通常包含视频信息,情感的视频信息可为以后进行语音视频联合的情感识别研究提供良好的扩展性;缺点是寻找大量的多媒体语音材料需要大量时间,浪费人力,找到的语音材料涵盖不全面,并且要将得到的语音材料进行预处理,把噪声,环境干扰等无用信号剔除。来~自^751论+文.网www.751com.cn/
3 语音情感分析及前端处理
3.1语音情感分析原理概述
语音信号中往往包含有诸多信息,但从语音信号中提取我们所需的情感信息是一件工作量很大的事,我们可以从时域,频域和倒谱域进行分析,时域分析的优点是物理意义明确,计算量小,简单直观;但更多的分析在频域,因为语音信号的很多信息反映在其功率谱中,时域波形比较容易受外界噪声的影响,但频域比较稳定,并且语音信号的频谱有非常明显的声学特性,比如基音频率,共振峰频率等;倒谱域则是将功率谱取对数再进行逆傅里叶变换得到的,倒谱域分析的优点是将声门激励和声道响应分离开来,这样可以更好的分析语音特性。本文主要分析的是高兴和愤怒两种状态,其他状态也可以用本文类似的方法,区别仅仅为特征参数的选择,进行语音情感分析时,可以从时域中的短时能量,短时过零率等分析;频域中的频谱特性,基音频率,共振峰频率等;本文中提取的特征参数主要包含短时能量,短时过零率,基音频率,相对语速,第一共振峰频率。之所以选择以上情感特征分析是因为与一般说话相比,带情感的语音在以下三组中存在变化[1]:语音质量,音调和说话速度。其中音调最具有客观性,所以大多学者将研究重点放在语音的韵律方面,根据韵律特征来提取情感被证明是行之有效的。文献综述
3.1.1语音信号的产生过程
声音是由人类的发生器官产生的,人类的发生器官包括肺,器管,喉,声道,其中肺是语音产生最根本的源头,声带是语音产生的激励源,声道是指嘴唇到声门的所有器官,包含了口腔,鼻腔,咽,它们的截面是不均匀的并且随时间变化,相当于谐振腔的作用。综上可概括为语音是由肺部呼出的气流通过喉头至嘴唇的器官的各种作用发出的。作用的方式有三种,第一是把从肺部呼出直气流变为音源;第二是对音源起共振和反共振作用,使其带有音色;