国内关于语音情感特征的识别研究起步较晚。2001年,东南大学赵力等人提出要进行语音情感识别的研究。2003年,中科院自动化所等单位成立了语音情感识别项目专题研究。
语音情感智能识别技术的研究仍面临很多难题,比如:关于语音情感的分类,长期以来说法不一,这给语音情感的识别带来很大的困难。并且,目前没有一个国际上统一的情感数据库。目前可以使用的情感语料库有丹麦情感语音数据库和德国柏林技术大学录制的情感语料库,国内公开的情感语料库主要是由中科院自动化所录制的。因此,目前做情感识别研究时使用的大多是研究者自行录制的语料库,这给研究结果的推广造成了很大的困难。另外,关于语音情感特征的提取,不同的人也提出了不同的方法。
1. 语音情感的分类及情感语料库的建立
1.1 语音情感的分类
长期以来,人们提出了各种情感的分类方法,有对基本情感的分类,还有对情感文度的划分。具体介绍如下。
1.1.1 基本情感的分类
关于基本语音情感的分类,长期以来说法不一。我国古代名著《札记》中就有“七情”说,即喜、怒、哀、惧、爱、恶和欲等;我国心理学家林传鼎(1944)中提出的“751情”说,颇具影响力。
国际上的心理学家们对情感的分类意见不同,长期以来,一直呈现百家争鸣的状态。基于不同分类原理的基本情感分类如表1所示。
表1 基于不同分类原理的基本情感分类[1]
学者 基本情感
Arnold 愤怒,厌恶,勇气,灰心,渴望
Ekman, Friesen and Ellsworth 绝望,恐惧,愤恨,希望,爱,悲哀
Frijda 渴望,快乐,好奇,惊愕,奇迹,悲伤
Gray 愤怒,恐怖,焦虑,欢喜
Izard 愤怒,轻视,厌恶,苦恼,恐惧,内疚,好奇,欢喜,羞愧,惊奇
James 恐惧,伤心,爱,愤怒
McDougall 恐惧,征服,慈善,惊愕
Mowrer 痛苦,快乐
Oatley and Johnson-Laird 愤怒,厌恶,焦虑,快乐,悲哀
Panksepp 预期,恐惧,愤怒,恐慌
Plutchik 接受,愤怒,希望,厌恶,欢喜,恐惧,悲哀,惊奇
Tomkins 愤怒,好奇,轻视,厌恶,苦恼,恐惧,欢喜,愧疚,惊奇
Watson 恐惧,爱,愤怒
Weiner and Graham 快乐,悲哀
其中比较有影响力的是美国心理学家普拉切克(Plutchik)。
图1 普拉切克(Plutchik)的情绪模式
普拉切克的情绪模式如图1所示,他认为各种情感在自然原点的周围排成了一个圆,圆的中心是自然原点,不同的情感通过向周围不同方向的扩展。不同情绪之间不是独立而是连续的。这种对情感进行分类的方法称为“情感轮”。
1.1.2 情绪的文度理论
下面就几种重要的情绪文度理论做简要介绍。
19世纪末,冯特(Wundt,1896)首先提出情绪的三文理论。他认为情绪三个文度上都存在相互对立的两级,不同的情绪分布在三个文度的两级之间的不同位置上。情绪的三个文度分别是:愉快——不愉快;激动——平静;紧张——松弛。
20世纪50年代,施洛伯格(Schloberg,1954)提出了不同的情绪文度分类,并建立了三文模式图[2]。他将情绪分为愉快——不愉快、注意——拒绝和激活水平三个文度。施洛伯格的情绪三文情感模型如下图2所示。 MATLAB语音情感智能识别的建模与仿真(2):http://www.751com.cn/zidonghua/lunwen_1386.html