基于子带结构带宽可伸缩语音编码器的研究 第6页
因为语音信号存在冗余度和人耳的听觉特性,语音信号能够进行压缩编码[3]。
语音信号产生的激励和它的结构特性表明,语音信号中存在很大的冗余度。语音压缩编码的本质就是通过识别其中的冗余信息并设法去掉,从而达到压缩目的。语音信号的冗余度表现在以下四个方面:语音信号样本间相关性很强;浊音语音段具有准周期特性;声道的形状及其变化的速率是有限的;传输码的概率分布是不均匀的。
前三个冗余度是由于语音信号产生激励的物理结构决定的。从理论上来说,可以通过适当滤波去除短时谱的不平坦性,大多数波形编码技术都是利用这一特性,从频谱平整化进行处理。根据语音信号分帧处理的理论基础,它允许声道滤波器参数或谱包络等可以按帧处理,同时通过一定的手段去除帧间的相关性。传输码的概率的分布不均匀与所采用的特殊编码方法有关,主要被各种概率编码方法所利用。当传输的数码率已被设定时,语音编码器的合成语音质量将通过有效利用这些冗余度而达到最佳。
语音信号能进行压缩编码的第二个依据是利用人类的听觉功能特点。人的听觉中有一个重要的特点,就是听觉的掩蔽效应,即一个强音能抑制另一个弱音的听觉。利用听觉的掩蔽效应,在编码时采用一些准则来改变量化噪声的频谱形状,使得量化噪声在主观听觉上能部分或全部被语音所屏蔽;或在后滤波技术中利用谱幅度的适度失真来降低量化噪音对语音质量的影响。人的听觉对声调(pitch)的感觉很准确,但在不同的频段允许的畸变不同,对低频端比较敏感(因为浊音的基音和共振峰结构集中在那里),对高频段不太敏感,能容忍较大的基音偏差。人的听觉对信号的相位很不敏感,也是某些分析和编码方法的依据;低码率的语音编码几乎不会给相位因子分配码字。
根据香农编码理论[10],在无噪声干扰情况下,存在一种无失真编码方法,使编码后的平均码长与信源嫡任意接近。因此,对于无失真编码,信源嫡是理论上的编码比特率下限。实际应用系统中,通常不需要进行完全无失真的编码,即可以利用人的感觉系统特性,去除一些不必要的信息,对信源进行有损编码。例如,语音信号中的某些频率的信号错误对人眼来说,是不可感知的,或者说人眼可以容忍这些特定的失真。因此,存在一种最优失真编码,经编码和解码后,重构语音与原始语音相比,具有一定损失,但这种损失并不引起听觉损伤,同时所需的编码比特数最少。从接收端来看,最优失真编码就是在允许某种程度的失真情况下,寻找恢复信源消息所必须获得的最小信息量,以减少所必须接收的编码比特数。接收端获得的平均信息量可用平均互信息I(X;Y)表示,因此,最优失真编码即转变为在一定失真限度下,寻找I(X;Y)的最小值。
语音信号可以用自回归过程来模型化。一个零均值的高斯自回归信源可以用下面的差分方程如式(3-1)所示[11]。若图片无法显示请联系QQ752018766
其中a1,a2,….,am都是自衰减常数,Z(n)是一个序列。如果q>=p ,X(p)在统计上是与Z(p)无关的.自相关函数如式(3-2)所示[11]。
Rxx(k)= (3-2)
并且Rxx(0)=其中
或者
其中
(3-4)
其中C(k)是k次谐波的系数,可以通过式子(3-5)求得。
(3-5)
X(n)可以近似的用k个因子的和来表示,当K趋向于无穷大时越逼近理论值。实践时候近似值应该包括频率达到一个F频率的频率组成部分。
离散信源
(3-6)
其中
熵H(x)是一随机性的一个绝对测度,差分熵h(X)是相对于并列系统的随机性的一个相对测度。自信息量
(3-8)
对于连续的情况如式(3-9)。
(3-9)
自信息量
率失真理论解决的就是在保持平均失真不高于一个可接受的水平下使得占用信道的容量最小化。率失真函数[13]R(D)表示信源编码最小输出率,同时对于一个给定的平均失真水平能够得到最小的信道容量。
对于给定的一个无记忆离散信号X,它的概率聚合函数为p(x)(表示为{X,P}),每个信号X=(x1,x2,…,xn)由矢量
(3-10)
其中
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] ... 下一页 >>