2.3.1 特征参数提取的特点
从语音信号中提取能反映词条个性的参数是语音识别的关键。在理想情况下,这些特征应该具有如下特点:
(1)具有很高的区别词条的能力,能够尽量充分体现不同模板之间的差异,但是在词条本身语音发生变化时却能保持相对稳定。
(2)当输入的语音信号受到信道和噪声的干扰时,能够保持较好的顽健性。
(3)易于提取,计算简单,在特征参数的各文空间具有较好的独立性,在保持高识别率的情况下,还要尽可能运用较低的文数以减少计算量。
(4)不易被模仿。
2.3.2 主要特征参数
任何实信号的特征都分为时域和频域两部分,时域的特征有短时平均能量、共振峰、基音周期、短时平均过零率等。频域的特征参数常用的有幅值、能量、线性预测系数、LPC倒谱系数、反映人耳听觉的Mel频谱倒谱系数等。
MFCC则直接利用离散傅里叶变换得到,结果是MFCC更符合人耳的听觉特性,没有任何前提假设的束缚,任何情况都可运用,适用范围广。语音信息的能量大部分集中在低频部分,而高频部分更容易受环境影响,MFCC参数将线性频标转化为MEL频标。在噪声的影响下,MFCC参数具有更高的准确率。
人耳具有一些特殊的功能,这些功能使得人耳在嘈杂的环境中,以及各种变异的情况下仍能正常的分辨出各种语音。这种功能的关键是耳蜗的作用,耳蜗充当了一个滤波器组,并且人耳对不同频率的感知能力也不尽相同,在1000hz以下,感知能力是随频率成线性关系,而在1000hz以上,感知能力则随频率成对数关系。于是人们根据实验得到了摸仿耳蜗作用的滤波器组,即MEL滤波器组。频率的提出就是为了模拟人耳对频率的感知能力,其意义为:1Mel为1000hz的音调感知程度的一千分之一。
MFCC倒谱系数计算步骤为:
(1)首先将信号进行分帧、预加重和加汉明窗处理,然后进行短时傅里叶变换,得到其频谱。
(2)继而求出频谱的平方,即得能量谱,接着通过M个MEL带通滤波器对其进行滤波,因为每一个频带中的分量产生的影响在人耳中是叠加的,因此将每个滤波器带内的能量都进行叠加,记第k个滤波器输出功率谱 。
(3)在上述基础上对每个滤波器的输出取对数,得到对数功率谱;然后对其进行反离散余弦变换,得到L个(一般L取12~16个左右)MFCC系数。MFCC系数计算公式为:
(2)
(4)将这种得到的MFCC系数作为静态特征,再将这种静态特征做一阶和二阶差分,得到相应的动态特征。
将经过预处理的时域离散信号x(n)补零后经过离散傅里叶变换得到线性频谱X(k),离散傅里叶变换的公式为:
(3)
LPC分析是估计语音信号功率谱的一种有效的方法。把合成滤波器看成是一
个P阶AR模型,那么就有:
(4)
式(4)中, 是合成滤波器H(z)的频率响应; 是语音信号的傅里叶变换,即信号谱。然而,语音信号并非是p阶AR模型,因此 只能看做是对信号谱的一个估计[12]。
通过求取预测器多项式的根,可以实现对共振峰的估计。
2.4 模式匹配
2.4.1 识别原理
识别过程是从待识语音中提取特征形成待识模式,与参考模式进行模式匹配、比较和判决,从而得出识别结果。在识别阶段,待识别语音信号经过与模板相同的预处理等通道得到语音参数,生成测试模板,将其与参考模板进行模式匹配,将匹配分数最高的参考模板,也即是将参考模板与测试模板差异最小的作为识别结果。如果模板库中没有与之匹配的参考模板,则会报错。 MATLAB语音识别系统的设计+DTW算法+流程图(6):http://www.751com.cn/tongxin/lunwen_809.html