与波形编码不同,语音参数编码通过对语音信号的参数进行提取及编码,力图使重建语音信号具有尽可能高的可懂度,即保持原始语音的语意而重建信号的波形同原始语音信号的波形可能会有相当大的差别。它只要求得到的信号听起来与输入语音完全一样,而不必与输入波形相同。这类编码的优点是编码率较低可以达到2.4kbps 以下[8][9]。 为充分发挥参数编码的性能以下三个要素是重要的:
(1) 去掉语音波形中的冗余部分提取对于听觉所需的重要参数
(2) 对参数进行有效的编码
(3) 根据编码的参数尽可能无失真地将语音还原出来
通道声码器、共振峰声码器及线性预测声码器都是典型的参数编码。它们的优点是因为所传送的参数较为简单节省信道,此外还可将参数码进行加密。但参数编码也有缺点,其主要问题是合成的语音质量差,特别是自然度较低不一定能听出讲话人是谁。
当前,由参量编码与波形编码相结合的混合编码的编码器正在得到人们较大的关注。这种编码器既具备了声码器的特点(利用语音生成模型提取语音参数),又具备了波形编码的特点(优化激励信号,使其与输入语音波形相匹配),同时还可利用感知加权最小均方误差的准则使编码器成为一个闭环优化的系统,从而在较低的比特率上能获得较高的语音质量。
由于混合编码技术将波形编码和参数编码两种技术结合起来,兼顾了传输速率与语音质量的要求,使其发挥各自的长处,在4-16Kbit/s传输速率上可以得到高质量的合成语音。
码激励线性预测(CELP)编码系采用合成分析法(Analysis- by-Synthesis) 的语音编码,是一种典型的混合编码方案。在中低速率(4.8-16kbis)能够给出高质量的合成语音,且抗噪声和多次转接性能好,是目前语音编码算法中的主要选择。
CELP 采取分帧技术进行编码,帧长一般为20~ 30ms,每一个语音帧再被分成2-5 个子帧,在每个子帧内搜索最佳的码字矢量(简称码矢量) 作为激励信号,CELP 编码的流程如图2.7所示。若图片无法显示请联系QQ752018766
图2.7 CELP编码原理图
模拟话音信号(带宽为300~ 3400 Hz) 经8kHz采样后,首先进行线性预测(L P) 分析,去除语音的相关性,将语音信号表示为线性预测滤波器系数,并由此构成编译码器中的合成滤波器。CEL P 在L P声码器的基础上,引进一定的波形准则,采用了合成分析和感觉加权矢量量化(VQ ) 技术,通过合成分析的搜索过程搜索到最佳矢量。码本中存储的每一个码矢量都可以代替L P 余量信号作为可能的激励信号源。激励由两部分码本组成,分别模拟浊音和清音。CEL P 一般用一个自适应码本中的码矢量逼近语音的长时周期性(基音Pitch) 结构; 用一个固定的随机码本中的矢量来逼近语音的经过短时、长时预测后的余量信号。CEL P 编码算法将预测误差看作纠错信号,将残余分成矢量,然后通过两个码本搜寻来找出最接近匹配的码矢量, 乘以各自的最佳增益后相加,代替L P 余量信号作为CEL P 激励信号源来纠正线性预测模型中的不精确度。
本章主要介绍了语音编码的相关技术,包括了:语音信号的数字模型、短时分析技术、线性预测分析、矢量量化技术。语音的矢量量化是语音编码中最重要的一部分,对编码器的设计用着很重要的影响。同时,本章还介绍了语音编码的分类。
在下一章中,将主要针对带宽可伸缩编码的理论基础进行介绍。
整体编码能产生很好的语音合成质量和较低的压缩码率,但是由于码率固定在异构环境下经传输后接受端获得的语音质量会受到极大的限制。如果将复杂性,延时和失真三个因素都考虑在内的话,可伸缩源编码器应该是最好的解决方法[22]。分层编码有时候又叫分级编码,嵌入式编码或者变码率编码。通常可伸缩编码是通过分层结构实现,即一个核心层码流加上若干个增强层码流。其中核心层码流保证源信号重建的最低质量等级,其后再根据网络和信道条件选择一个或多个增强层码流来逐渐提高信号的重建质量。可伸缩源编码允许高失真源信号部分重建,即解码器只得到部分码流。优点是只需通过截短码流来改变源信号码率,自由地进行码率的平滑过渡。
可伸缩语音编码器至少可提供两种码流输出,能够适应复杂,延时多变的运行环境。核心层语音编码器具有低比特率、延时和复杂度,提供质量可令人接受的输出语音用于交互式的语音通信。增强层利用核心层的输出参数做误差比较产生处理,提供各种高性能的修饰语音输出。由于现在的通信网络已经采用和配置许多传统的语音/音频编码标准,并且作为单一的编码结构形成的编码器已经有很好的语音表达传输质量。考虑成本和应用的扩展推广方面如果考虑如何在对这些已配置的标准算法不作修改的情况下增强已存在的编码算法的功能,提供更多级别和更大灵活性的语音输出是一个挑战。因此,现在的许多分层是语音编码器是基于已有的标准语音编码器。通过各种码率控制和质量增强方法,例如精取误差信号利用语音感知理论采用感知加权系数获取误差信号的码本及其增益,改进码分工具实现码率的控制调节,使得已有语音编码器的编码质量得到提高。
可伸缩语音编码有时只需通过阶段码流来改变码源信号码率,自由的进行码率的平滑过渡。可伸缩方法可直接在编码器外丢弃码字,在网络应用中无需通过协调发送方和接受方来减少码流量。另外可伸缩编码具有灵活的错误保护机制,优先级高的信息可以放在可靠的传输路径上传输,或者对核心层和增强层采取不同的错误保护机制,即进行优先级排列,还有就是在无线通信中能动态的非配资源,处理变化的业务流,对不同的信道条件有很强的自组织性和适应性,使低速率与高速率的用户能够共存。
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] ... 下一页 >>