1.2 国内外研究现状及面临的问题
1.2.1 国内研究现状
1.2.3 面临的问题
1.2.4 本文章节安排
本文主要分析的是高兴和愤怒两种情感,并选取平静状态作为参考,主要讨论的是应该提取哪些特征参量进行分析,怎样获取这些特征参数,这些特征参数对情感识别有何作用等。本文以一句汉语普通话作为样本进行研究,该句内容为“就是下雨也去”。论文网
本文第一章主要介绍了选题的背景及意义,并简单介绍现阶段国内外在语音情感识别这一领域中取得的进展以及面临的问题,
本文第二章主要介绍情感语音库的建立,语音库的分类和建立原则。
本文第三章主要介绍提取语音信号特征参数前期处理,包括对语音信号进行采样,加窗,分帧,预加重等操作。
本文第四章是整篇文章的核心部分,介绍了要提取的特征参数,包括短时能量,能量变化率,基音频率,基音频率变化率,相对语速,第一共振峰,第一共振峰变化率。该章节综合运用matlab软件和praat软件,参数提取分析过程主要基于matlab编程,由于某些门限值的设定需要专业人士设定,所以结果的得出主要依赖于praat软件。
最后给出结论。
2 情感语音库
2.1 情感语音库的分类
人类在认识外界事物时,会产生喜与悲,苦与乐,爱与恨等主观体验。我们把人对外界客观事物的态度及相应的行为反应,称之为情绪情感。因为情感本身是很复杂的,所以要对情感进行准确的分类就显得非常困难,长期以来,许多心理学研究人员对此进行了长期的探索,虽然至今还未得到统一的理论和模型,但其中有几种典型的分类方法被人们广为接受。
第一种是基本情感和复合情感理论[6],这种分类主要根据人类情感的纯度和原始度将情感分为基本情感和复合情感。基本情感是人类和其他社会化的动物所共有的,复合情感则是在基本情感上衍生出来的,复合情感也可以是多种基本情感的复合。而学术界对基本情感的定义至今还没有统一的定论,现在工程界和心理学界常用的是Ekman提出的六种基本情感模型,包括高兴,愤怒,惊奇,厌恶,悲伤,恐惧。
第二种是情感轮模型[6]。该分类方法认为情感分布在一个圆形的结构上,中心是自然原点,自然原点通向周围不同方向的扩展,表现出不同的情感,与自然原点的距离代表该情感的强度,如在平面中,用矢量表示,矢量的方向代表情感类别,矢量的模代表该情感强度,现在已经发展到用三维圆锥形结构来进行情感分类。
第三种是三级分类模型[6]。这种分类是按照情感中表现的主动和被动成分来划分的,等级是按照划分的粗略和详细来进行的,等级越高所进行的划分越详细。如下表2.1所示:
表2.1 三级分类模型示例
第一级 主动情感 被动情感
第二级 快乐,愤怒,好奇 害怕,厌恶,悲伤
第三级 幸福,自豪,关心,
责任,敌对,嫉妒 苦恼,痛苦,怨恨,
轻视,忧虑,恐惧
2.2 语音库原则及获取方法
不论是语音的情感识别还是合成,都需要一个真实,高效,数据丰富的语音情感数据库作为分类器的训练数据或者是合成器的合成数据。情感数据库的建立必须依靠以下四个原则:(1)真实性,数据库中的素材必须是人们所经历过的真实的情感体验;(2)交互性,数据库中的情感素材必须是人与人之间交流互动过程中产生的,这样更接近于语音情感人机交互的目的;(3)连续性,情感素材必须在连续的情感场景中发生,存在着多种情感状态的转移。(4)丰富性,数据库中的情感素材必须包含多媒体信息,有声音、有表情等。