采样后的信号在时间域上是离散的形式,但在幅度上还保持着连续的特点,所以要进行量化,量化的目的是将信号波形的幅度值离散化。一个量化器就是将整个信号的幅度值分成若干个有限的区间,并且把落入同一个区间的样本点都用同一个幅度值表示,这个幅度值称为量化值。
2.2 语音信号的短时加窗处理
经过数字化的语音信号实际上是一个时变信号,为了能用传统的方法对语音信号进行分析,应假设语音信号在10ms-30ms短时间内是平稳的。后面所有的分析都是在语音信号短时平稳这个假设条件进行的。
为了得到短时的语音信号,要对语音信号进行加窗操作。在加窗的时候,不同的窗口选择将影响到语音信号分析的结果。在选择窗的时候一般有两个问题要考虑。
2.2.1 窗函数选择
窗函数可以选用矩形窗,即:
W(n)= (当0 n N-1 为1) (式2-1)
或其他形式的窗函数,例如汉明窗(Hamming),即
W(n)= (当0 n N-1 为1) (2-2)
式中,N 为窗口长度。
虽然这些窗函数的频率响应都具有低通特性,但不同的窗函数形状将影响分帧后短时特征的特性。下面以矩形窗和汉明窗为例对窗函数进行比校。
如图2-2中给出了在N=64 时的矩形窗和汉明窗及其频率响应对应的对数幅度。可以看到,汉明窗的第一个零值频率位置比矩形窗要大一倍左右,即汉明窗的主瓣大约是同样宽度矩形窗的两倍。同时也可以很明显地看到,在通带外汉明窗的衰减较相应的矩形窗大得多。
(a)矩形窗(b)汉明窗
图2-2 两种常用窗函数时域及频率幅度图
2.2.2窗函数的长度
不论什么样的窗函数,窗函数的长度对能否反映语音信号的幅度变化起决定性的作用。如果N特别大,即等于几个基音周期量级,则窗函数等效于很窄的低通滤波器,此时信号短时信息将很慢地变化,因而也就不能充分地反映波形变化的细节;如果N太小,滤波器的通带变宽,则不能得到较为平滑的短时信息,因此窗函数的长度要选择合适。窗函数的衰减基本上与窗函数的持续时间无关,因此当改变窗函数的长度N时,会使带宽发生变化。
前面的窗函数长度是相对于语音信号的基音周期而言的。通常认为一个语音帧内,应含有1~7个基音周期,然而不同人的基音周期变化范围很大,基音周期持续时间会从高音调的女性或儿童的约20个采样点(采样频率为10kHz)变化到很低音调的男性的250个采样点,这意着在进行分析时可能需要多个不同的N值,所以N的选择比较困难。通常在采样频率为10kHz的情况下,N的选择在100~200量级是合适的(也就是说10ms~20ms持续时间)。
对语音信号的时域分析来说,窗函数的形状是非常重要的,矩形窗的谱平滑性较好,但波形细节丢失,并且矩形窗会产生泄漏现象,而汉明窗可以有效地克服泄漏现象,具有更平滑的低通特性,应用最为广泛。
3 几种重要的基频提取方法
自20世纪60年代以来,人们已经提出了许多经典的基频提取的算法,大致可以分为三类:①时域分析算法,如自相关法(ACF),短时平均幅度差法(AMDF)等.②频域分析算法,如倒谱法(CEP)等.③时频结合的分析算法,如小波分析算法等.随着现代信息处理方法的发展,基频提取算法也在不断的改进,在研究过程中发现,这些算法都具有不同的优缺点,至今没有一种万能的方法柱任何情况下都能准确可靠地估计出基音周期。下面先介绍语音信号的特征分析 汉语双基频检测研究+文献综述(3):http://www.751com.cn/tongxin/lunwen_8896.html