毕业论文论文范文课程设计实践报告法律论文英语论文教学论文医学论文农学论文艺术论文行政论文管理论文计算机安全
您现在的位置: 毕业论文 >> 论文 >> 正文

基于子带结构带宽可伸缩语音编码器的研究 第6页

更新时间:2008-3-4:  来源:毕业论文

基于子带结构带宽可伸缩语音编码器的研究 第6页

3.2语音压缩理论依据

因为语音信号存在冗余度和人耳的听觉特性,语音信号能够进行压缩编码[3]

语音信号产生的激励和它的结构特性表明,语音信号中存在很大的冗余度。语音压缩编码的本质就是通过识别其中的冗余信息并设法去掉,从而达到压缩目的。语音信号的冗余度表现在以下四个方面:语音信号样本间相关性很强;浊音语音段具有准周期特性;声道的形状及其变化的速率是有限的;传输码的概率分布是不均匀的。

前三个冗余度是由于语音信号产生激励的物理结构决定的。从理论上来说,可以通过适当滤波去除短时谱的不平坦性,大多数波形编码技术都是利用这一特性,从频谱平整化进行处理。根据语音信号分帧处理的理论基础,它允许声道滤波器参数或谱包络等可以按帧处理,同时通过一定的手段去除帧间的相关性。传输码的概率的分布不均匀与所采用的特殊编码方法有关,主要被各种概率编码方法所利用。当传输的数码率已被设定时,语音编码器的合成语音质量将通过有效利用这些冗余度而达到最佳。

语音信号能进行压缩编码的第二个依据是利用人类的听觉功能特点。人的听觉中有一个重要的特点,就是听觉的掩蔽效应,即一个强音能抑制另一个弱音的听觉。利用听觉的掩蔽效应,在编码时采用一些准则来改变量化噪声的频谱形状,使得量化噪声在主观听觉上能部分或全部被语音所屏蔽;或在后滤波技术中利用谱幅度的适度失真来降低量化噪音对语音质量的影响。人的听觉对声调(pitch)的感觉很准确,但在不同的频段允许的畸变不同,对低频端比较敏感(因为浊音的基音和共振峰结构集中在那里),对高频段不太敏感,能容忍较大的基音偏差。人的听觉对信号的相位很不敏感,也是某些分析和编码方法的依据;低码率的语音编码几乎不会给相位因子分配码字。

3.3率失真理论

根据香农编码理论[10],在无噪声干扰情况下,存在一种无失真编码方法,使编码后的平均码长与信源嫡任意接近。因此,对于无失真编码,信源嫡是理论上的编码比特率下限。实际应用系统中,通常不需要进行完全无失真的编码,即可以利用人的感觉系统特性,去除一些不必要的信息,对信源进行有损编码。例如,语音信号中的某些频率的信号错误对人眼来说,是不可感知的,或者说人眼可以容忍这些特定的失真。因此,存在一种最优失真编码,经编码和解码后,重构语音与原始语音相比,具有一定损失,但这种损失并不引起听觉损伤,同时所需的编码比特数最少。从接收端来看,最优失真编码就是在允许某种程度的失真情况下,寻找恢复信源消息所必须获得的最小信息量,以减少所必须接收的编码比特数。接收端获得的平均信息量可用平均互信息I(X;Y)表示,因此,最优失真编码即转变为在一定失真限度下,寻找I(X;Y)的最小值。

语音信号可以用自回归过程来模型化。一个零均值的高斯自回归信源可以用下面的差分方程如式(3-1)所示[11]。若图片无法显示请联系QQ752018766

                (3-1)                 

其中a1,a2,….,am都是自衰减常数,Z(n)是一个序列。如果q>=p X(p)在统计上是与Z(p)无关的.自相关函数如式(3-2)所示[11]

Rxx(k)=                      (3-2)

并且Rxx(0)=其中 是信源差异。能量谱密度由自回归过程的自回归函数的傅立叶变换来表示如式(3-3)[11]

或者       (3-3)

其中 基础频率为w0的周期信号X(n)可以用一个调和相关的傅立叶正弦曲线序列的线性组合如式(3-4)来表示。

                           (3-4)

其中C(k)k次谐波的系数,可以通过式子(3-5)求得。

                    (3-5)

X(n)可以近似的用k个因子的和来表示,当K趋向于无穷大时越逼近理论值。实践时候近似值应该包括频率达到一个F频率的频率组成部分。

离散信源 的分布函数为p(x),重建信源 的分布函数为 他们的联合概率分布函数为 那么一个随机离散变量X的熵H(x)可以表示如式(3-6)[12]

                     (3-6)

其中 是一个连续信源,分布函数为px),并且 是重建信号,分布函数为 。他的联合概率密度函数为 连续随机变量的差分熵如式子(3-7)[12]

                      (3-7)

H(x)是一随机性的一个绝对测度,差分熵h(X)是相对于并列系统的随机性的一个相对测度。自信息量 是一个位于联合分布和乘积分布 之间的相对熵。例如对于离散的情况如式(3-8)[12]

                     (3-8)

对于连续的情况如式(3-9)

            (3-9)

自信息量 是两个随机变量的依赖性的一个测度。熵能量可以表示成有在初始音中有相同的波段和相同熵的一个范围内的白噪声的能量。换句话说就是如果h(x)是一个音的熵,那么他的熵能量就是Qx= h(x)是信源的熵率。由于白噪声对于一个给定的能量有最大熵,任何噪声的熵能量都要小于或者等于他的实际能量。对于无记忆的高斯信源,熵能量有最大值,等于他的信源差异。对于有记忆的信源,在编码和分析的时候记忆被剥离开来。

率失真理论解决的就是在保持平均失真不高于一个可接受的水平下使得占用信道的容量最小化。率失真函数[13]R(D)表示信源编码最小输出率,同时对于一个给定的平均失真水平能够得到最小的信道容量。

对于给定的一个无记忆离散信号X,它的概率聚合函数为p(x)(表示为{X,P}),每个信号X=(x1,x2,…,xn)由矢量 =( 1, 2, 3… n)根据一个保真测度如式(3-10)

                   (3-10)

其中 平均失真为d(Q)= 其中 是与一个联合分布函数P(j,k)=P(j)Q(k|j)相关的一个条件概率,并且当且仅当 成立时才成立。所有的D的可接受集合的条件概率分布由式子 表示。对于固定的D率失真函数可以表示成R(D)= 其中I(Q)是互信息如式(3-11)若图片无法显示请联系QQ752018766

上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] [10]  ... 下一页  >> 

基于子带结构带宽可伸缩语音编码器的研究 第6页下载如图片无法显示或论文不完整,请联系qq752018766
设为首页 | 联系站长 | 友情链接 | 网站地图 |

copyright©751com.cn 辣文论文网 严禁转载
如果本毕业论文网损害了您的利益或者侵犯了您的权利,请及时联系,我们一定会及时改正。