MATLAB语音识别系统的设计+DTW算法+流程图(6)

2.3.1 特征参数提取的特点
从语音信号中提取能反映词条个性的参数是语音识别的关键。在理想情况下，这些特征应该具有如下特点：
（1）具有很高的区别词条的能力，能够尽量充分体现不同模板之间的差异，但是在词条本身语音发生变化时却能保持相对稳定。
（2）当输入的语音信号受到信道和噪声的干扰时，能够保持较好的顽健性。
（3）易于提取，计算简单，在特征参数的各文空间具有较好的独立性，在保持高识别率的情况下，还要尽可能运用较低的文数以减少计算量。
（4）不易被模仿。
2.3.2 主要特征参数
任何实信号的特征都分为时域和频域两部分，时域的特征有短时平均能量、共振峰、基音周期、短时平均过零率等。频域的特征参数常用的有幅值、能量、线性预测系数、LPC倒谱系数、反映人耳听觉的Mel频谱倒谱系数等。
MFCC则直接利用离散傅里叶变换得到，结果是MFCC更符合人耳的听觉特性，没有任何前提假设的束缚，任何情况都可运用，适用范围广。语音信息的能量大部分集中在低频部分，而高频部分更容易受环境影响，MFCC参数将线性频标转化为MEL频标。在噪声的影响下，MFCC参数具有更高的准确率。
人耳具有一些特殊的功能，这些功能使得人耳在嘈杂的环境中，以及各种变异的情况下仍能正常的分辨出各种语音。这种功能的关键是耳蜗的作用，耳蜗充当了一个滤波器组，并且人耳对不同频率的感知能力也不尽相同，在1000hz以下，感知能力是随频率成线性关系，而在1000hz以上，感知能力则随频率成对数关系。于是人们根据实验得到了摸仿耳蜗作用的滤波器组，即MEL滤波器组。频率的提出就是为了模拟人耳对频率的感知能力，其意义为：1Mel为1000hz的音调感知程度的一千分之一。
MFCC倒谱系数计算步骤为：
（1）首先将信号进行分帧、预加重和加汉明窗处理，然后进行短时傅里叶变换，得到其频谱。
（2）继而求出频谱的平方，即得能量谱，接着通过M个MEL带通滤波器对其进行滤波，因为每一个频带中的分量产生的影响在人耳中是叠加的，因此将每个滤波器带内的能量都进行叠加，记第k个滤波器输出功率谱。
（3）在上述基础上对每个滤波器的输出取对数，得到对数功率谱；然后对其进行反离散余弦变换，得到L个（一般L取12~16个左右）MFCC系数。MFCC系数计算公式为：
    (2)
（4）将这种得到的MFCC系数作为静态特征，再将这种静态特征做一阶和二阶差分，得到相应的动态特征。
将经过预处理的时域离散信号x(n)补零后经过离散傅里叶变换得到线性频谱X（k）,离散傅里叶变换的公式为：
    (3)
LPC分析是估计语音信号功率谱的一种有效的方法。把合成滤波器看成是一
个P阶AR模型，那么就有：
                    (4)
式(4)中，是合成滤波器H(z)的频率响应；是语音信号的傅里叶变换，即信号谱。然而，语音信号并非是p阶AR模型，因此只能看做是对信号谱的一个估计[12]。
通过求取预测器多项式的根，可以实现对共振峰的估计。
2.4 模式匹配
2.4.1 识别原理
识别过程是从待识语音中提取特征形成待识模式，与参考模式进行模式匹配、比较和判决，从而得出识别结果。在识别阶段，待识别语音信号经过与模板相同的预处理等通道得到语音参数，生成测试模板，将其与参考模板进行模式匹配，将匹配分数最高的参考模板，也即是将参考模板与测试模板差异最小的作为识别结果。如果模板库中没有与之匹配的参考模板，则会报错。 MATLAB语音识别系统的设计+DTW算法+流程图(6):http://www.751com.cn/tongxin/lunwen_809.html