基于经验模式分解的汉语共振峰检测算法(7)

4 汉语共振峰检测
在语音学中，元音是指在发音过程中，对声腔气流无明显阻塞而发出的音段，如[a]、[i]或[u]。从声学原理上讲，发元音时，声带周期振动，口腔内舌头高低前后位置变化，开闭鼻腔通道，再加上用力的大小、持续时间的长短，形成不同的元音。按照元音发音期间舌位和声腔形状是否变化，可以把元音分为单元音和复元音。单元音发音时，舌位和声腔形状基本不变；复元音发音时，舌位和声腔形状发生连续变化。元音的声源具有一个基频和一系列谐波。这些谐波基本上都

是基频的整数倍，它们的能量随着频率的递增而递减。通常而言，谐波分量的谱包络（由声门波的单周期波形决定）的滚降速率平均为-12dB/octave（倍频程）。
当然这一数值会随着发音气流的固有特点而改变，也会因人而异,比如用力的说话方式就可能使声门关闭得更为猛烈，导致谱包络的滚降速率为平均-9dB/octave [1]。这一系列基频和谐波通过声腔时，由于声腔变化所造成的不同共振特性（称为声腔的自然频率）。这些谐波被调制，其中某些频率被加强，另一些频率被抑制，从而构成形式不同的频谱。其中被加强的一组谐波群就称为共振峰。通常，共振峰定义为声道脉冲响应的衰减正弦分量，在经典的语音信号模型中，共振峰等效为声道传输函数的复数极点对。根据语音信号合成的研究表明，表示浊音信
号最主要的是前三个共振峰。一个语音信号的共振峰模型，只用前三个时变共振峰频率就可以得到可懂度很好的合成浊音。

4.1 基于经验模态分解（EMD）的汉语共振峰检测

算法利用时频分析工具HHT将各个共振峰分解到不同模式中，进而利用传统LPC谱提取各共振峰的中心频率。
（1）预处理
由于受口鼻辐射等的影响，语音信号在处理前需作预加重处理，以提升语音
信号的高频部分，达到对共振峰频率分量的加重效果。接下来对语音信号s(t)进行声韵分割，目的是去除s(t)中那些被确定为无声的或清音的部分，这里我们结合系综经验模式分解和传统分割方法如短时能量法、过零率来实现声韵分割。
（2）利用LPC法构造参考共振峰轨迹
利用传LPC法来处理经过预处理后的语音信号，其中帧长200点，帧移100点，重复点数100点，LPC模型的阶数为16。进而得到采用LPC法对语音信号前三个共振峰的估计结果。根据汉语发音时第一共振峰中心频率一般小于1000Hz，第二共振峰的中心频率处于[1000，2000Hz]范围之内，第三共振峰的中心频率一般在2000Hz之上，对这些估计结果进行进一步的提炼，保留在符合上述规律的点。

从而构造出三条参考共振峰轨迹， (n=1,2,3)。
图4.1 基于经验模式分解的共振峰检测算法流程图

（3）利用EMD或LIM法处理语音信号并且提取共振峰在LPC法构造参考共振峰的同时，利用EMD或LIM处理预处理过的语音信号s(t)，产生一系列内禀模式函数， (n =1,2,•••)。通过分析我们知道，现有EMD算法不能分解一个倍频内的振动模式，当两个共振峰的中心频率处于一个倍频内则无法分离。这种情况下，需要采用频率分辨率更高的LIM算法进行分解。因此，我们通过前三个参考共振峰之间的频率关系，选择不同的算法进行处理。如此可将前三个共振峰信息分解到不同内禀模式函数中去。通常中包含频率最高的第三共振峰；中包含频率次之的第二共振峰；而则包含频率最低的第一共振峰。接着对前
（3）三个内禀模式函数分别加窗进行LPC谱计算，然后通过峰值计算出各自共振峰的中心频率。其中帧长200点，帧移100点，重复点数100点，LPC模型的阶数为16。从而找出三条共振峰轨迹， n =1,2,3)。基于经验模式分解的汉语共振峰检测算法(7):http://www.751com.cn/tongxin/lunwen_2168.html