基于子带结构带宽可伸缩语音编码器的研究 第3页
图2.1 声道激励模型
声道模型可分为两类,声管模型和共振峰模型。最简单的声道模型,即声管模型是将其视为由多个不同截面积的管子串联而成的系统,在语音信号的某一“短时”期间,声道可表示为形状稳定的管道。每个管子可看作为一个四端网络,这个网络具有反射系数,这时声道可由一组截面积或一组反射系数来表示。共振峰模型将声道视为一个谐振腔,共振峰就是这个腔体的谐振频率[3]。可以建立三种实用模型:级联型、并联型和混合型。
辐射模型即嘴唇的辐射效应可表示为:
R(z)=R0(1-z-1) (2-1)
综合声道、嘴唇和声门处的数字模型,可以得到使用最多的语音产生的数字模型,利用浊音和清音单激励发生器二者交替来模拟激励形式的改变,也就是所谓的二元激励。对于声道,可以用很多个不同的滤波器来模拟,在多数情况下,把声门脉冲、辐射和声道等因素全部结合起来,用一个全极点形式的转移函数表示,即:
H(z)=G(z)V(z)R(z) (2-2)
若图片无法显示请联系QQ752018766,本论文免费
图2.2 语音信号数字模型
在实践中,这个二元激励的模型具有一定的局限性,但不不失为一个好的模型,而且合成出较满意的语音,它一直是分析语音最重要的基础。
语音信号是非平稳、时变、离散性大、信息量大、复杂的信号,因此处理的难度很大。各国学者经过多年努力,对一些问题的处理已取得了很好的结果,并具有一定的普遍意义。
语音信号的数字化[3-6]是数字处理的前提,语音信号的数字化过程如图2.3所示:若图片无法显示请联系QQ752018766,本论文免费
图 2.3 语音信号的数字化
Nyquist采样定理要求采样率必须大于信号带宽的2倍。典型的反混叠滤波器的技术指标是:通带内波动绝对值小于1dB,通带带宽3400Hz,在4000Hz处衰减14dB,4600Hz以上衰减32dB,对某些更高要求的应用,阻带衰减50dB以上。通常用8阶或者10阶的椭圆滤波器来实现。
对样点信号进行量化,一般采用8bit量化。实验表明语音波形的动态范围为55dB,用10bit以上量化更加合适。目前的器件可以做到16bit量化,量化的精度搞,量化信噪比提高,存储容量增大,处理时间也增加。
语音信号是非平稳、时变的,但又是慢时变、有限、非平稳的,因此用短时处理技术是适宜的。语音信号在 10~20ms 的时间范围内具有短时平稳的特点。因此,可以将平衡过程的处理方法和理论引入到语音信号的短时处理[3-6]。因此,语音信号分析常分段或分帧来处理,一般每秒的帧数约为33~100。根据实际情况,分帧既可用连续的,也可用交叠分段的方法,即短时分析。短时分析实质上是把语音信号截成一段一段的,这个操作对于数字信号极为简单,实质上用了一个矩形窗截取信号。通常的方法是用一个长度有限的窗函数w( n)截取一段语音信号进行分析,并让这个窗口滑动以便分析任一时刻附近的信号。数字信号处理理论告诉我们,两个信号的时域相乘,在频域相卷积,矩形信号频谱高频成分必将影响语音信号的高频部分,一般用高频分量幅度较小的窗形,以避免这些影响。因此在语音信号的处理中常用矩形窗和汉明窗。语音信号s(n)经窗函数w(n)加窗后,形成加窗语音,记为Sn(n)。经过加窗后,一般基本的短时参数包括了短时平均能量、短时平均幅度、短时平均过零率、短时自相关函数、短时平均幅度差函数。
短时平均能量相当于将语音信号平方后通过一个线性滤波器后的输出,该滤波器的单位取样响应为h(n),h(n)=
短时平均能量对于高电平信号,其平方处理方式显得过于灵敏,在处理器字长有限的情况下,容易产生溢出。短时平均幅度可以度量语音信号的幅度变化。
短时平均过零率可在处理多频率带通信号的频率特征方面有效。如果把语音信号用多通道带通滤波器分割,作每个子带波形的短时平均过零率和短时平均能量,实质上就是对语音信号作频域分析。
短时自相关函数用于语音信号的时域分析,对语音信号加以短时处理。但是在一些场合实现还很困难,乘积的累加和要求处理器的字长和存储器容量都很大,对硬件的要求较高。
短时平均幅度差函数具有与自相关函数相同的作用,但是运算量和对硬件的要求可以降低很多,在语音信号处理中得到广泛的应用。
线性预测分析[3][4]是进行语音信号分析最有效最流行的技术之一,被广泛地应用于语音信号处理的各个方面,语音编码、语音识别和语音合成。它提供一组简洁的语音信号的模型参数,可以有效而又正确地表现语音波形及语音信号的频谱幅度,而且计算量相对来讲并不大。就用这组模型参数可以降低编码语音信号时的数码率,将线性预测参数形成模板存储,在语音识别可以提高识别率和减少计算时间。在语音合成当中,也能有效的用到这种参数。
图2.4是信号s(n)的模型化框图。图中u(n)表示模型的输入,s(n)表示模型输出。当s(n)为确定信号时,模型的输入采用单位冲激序列,当s(n)为随机信号时,e(n)用白噪声序列。
V(z) u(n) s(n)
图2.4 信号得模型化
根据语音信号的产生模型,语音信号S(n)是一个线形非移变因果稳定系统v(z)受到信号U(z)激励后所产生的输出,如图3.3所示。在时域中,语音信号s(n)是该系统的单位冲击响应v(n)和激励信号u(n)的卷积。在语音信号数字处理所涉及的各个领域中,根据s(n)来求得v(n)和u(n)具有非常重要的意义。例如,为了求得语音信号的共振峰就需要知道V (z)(共振峰频率是V(z)的各对复共轭极点的频率);又如,为了判断语音信号是清音还是浊音及求得浊音情况下的基音频率,就应该知道u(n)或U(z)。
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] ... 下一页 >>