由于多媒体通信和无线网络存在异构性,为适应不同带宽资源和网络环境下的通信需求,语音、图像等各种多媒体信息均希望拥有可伸缩的灵活性。近年来,可伸缩语音编码技术得到迅速发展,技术渐渐成熟,应用领域也越来越广阔。可伸缩语音编码采用分层的思想,根据需要动态调整编码速率,在合成语音质量与系统容量之间取得平衡,最大限度地利用资源。
近年来,随着多媒体通信和无线网络的发展,出现大量语音编码器的标准化,语音编码技术得到飞速发展。低码率、高音质,传统的编码方式难以同时满足这两个要求。由于网络状况的不稳定性,固定速率的语音编码系统在网络上传输语音数据时,往往会造成通信质量的下降。未来的语音编码器应该能够根据网络资料的情况自动调节码率,适应各种用户的要求。
可伸缩编码技术在MPEG标准中得到了广泛的应用,但是主要集中在视频编码方面。近年来,可伸缩编码在语音编码的研究当中也得到了极大的重视。可伸缩编码也被称为变速率编码或者嵌入式编码,其编码方案一般由一个核心层码流和若干增强层码流组成。其中核心层码流保证最低质量的重建信号,再根据网络资源条件选择一个或多个增强层码流得到更高质量的语音信号。
可伸缩编码的优点很多,在语音通信中,用户能够根据提供的带宽资源的不同从同一个数据源得到不同质量的语音信号。另外,可伸缩编码具有灵活的错误保护机制,信息根据优先级可以放在可靠的传输路径上传输或针对核心层和增强层采取不同的错误保护机制。还有一个有点是在无线通信中能动态分配资源,自适应的处理变化的数据流。
可伸缩语音编码从分层原理上可以分为信噪比可伸缩和带宽可伸缩编码。信噪比可伸缩编码指编码器将源信号按不同的码率和失真度传输。带宽可伸缩指的是在基带基础上,通过添加高频信息来提高语音的质量。信噪比可伸缩编码的研究起步较早,现在已经比较成熟,进入九十年带后,带宽可伸缩编码方法的研究也取得较大进展,其研究方向主要集中在移动和多媒体通信方面。信噪比可伸缩编码适用于宽带和窄带信号,编码器采样率不可变。带宽可伸缩编码只针对宽带信号,编码器采样率可变。因此,我们在多媒体及移动通信领域应尽可能的利用带宽可伸缩编码采样率可变的优点。
宽带语音指的是带宽50-7000Hz的语音信号,通常窄带话音的频带再300-3400Hz。宽带语音相对窄带语音来说,新增低频部分提高了语音的自然度和临场感,高频部分增加了发声的可懂度和摩擦音的可识别度。带宽的扩展使得语音信号的质量和说话人识别度等方面均得到很大的提高。随着网络的发展,宽带语音将是通信网络中的一种主要媒体。
ITU-T于1986年提出了宽带语音压缩编码的标准G..722,它以分带ADPCM技术为基础,有64Kbps,56Kbps和48Kbps三种工作码率。ITU-T的15工作组于1995年2月通过了一种新的双模式宽带语音编码标准的参考条款,有两种工作模式。
最典型的带宽可伸缩语音编码的解决方案有两种,即CELP编码器和时频域变换编码器。时频域变换编码器时通过采用自适应比特分配和熵编码来达到一定的压缩比,但是延时较高。更多的宽带语音编码器是基于CELP的,普通的思路就是改进和调整成熟的CELP窄带编码器,使之适应宽带语音编码。
带宽可伸缩编码器从结构上可以分为全带结构和子带结构两种。全带结构的窄带和全带编码器是独立的,可分别进行最优编码来实现最优可伸缩编码。但是增强层在整个带宽范围内编码,复杂度较高,因此相对复杂度较低的子带结构越来越受到国内外学者的重视。
1998年,MPEG-4自然音频编码系统实现了全带结构CELP带宽可伸缩编码算法的标准化。
2000年,K.Koishida提出了基于G..729的全带结构带宽可伸缩编码方案[1],码率为16Kbps。
1998年,ITU-T提出子带结构的带宽可伸缩编码标准G..722。
1998年,Javovon提出一种子带结构的音频带宽可伸缩编码方案[2],,码率为16Kbps。
1997年,Kataoka提出一种子带结构的宽带音频语音编码器,其低子带采用G..729的编码方案,码率为16Kbps。
目前,带宽可伸缩语音编码器尚未完全成熟。全带结构的带宽可伸缩语音编码器,MPEG-4已有完善的标准;但ITU-T提出的子带结构带宽可伸缩编码方案G..722标准已不能满足目前语音通信的需求,因此提出一种适应当前需求的子带结构带宽可伸缩编码方案显得尤为重要。
本文研究的是适用于异构性网络通信的子带结构带宽可伸缩语音编码技术。采用G.729E编码方案作为可伸缩编码器的核心层编码器。本文的主要工作是研究子带结构带宽可伸缩语音编解码的结构和设计方案,其中针对可伸缩编码器的结构及滤波器组分带技术,进行了深入研究。
本文的主要工作包括:
(1)提出一种新的子带结构带宽可伸缩语音编码器方案。其中核心层采用G.729E编码方案,增强层采用参数编码算法。
(2)提出一种子带滤波器组的优化算法。首先采用改进后蚁群算法对正交镜像滤波器组参数提取优化,再将其应用于语音信号分带。同时对于相关算法进行具体分析说明,详细描述其基本原理与实现过程。并与普通正交镜像滤波器组比较,表明它具有更好的准确性和有效性。
(3)软件实现。首先对子带结构带宽可伸缩语音编码器做仔细的分析研究,并在VC环境下用C语言编程实现提出的编码器结构。另外,实现基于蚁群算法的滤波器优化技术。
第一章简要介绍可伸缩编码器的研究背景和本文所做的主要工作。
第二章介绍了各种语音编码算法里涉及到的编码技术,包括短时分析、线性预测分析和矢量量化,同时还介绍语音编码分类。
第三章介绍语音编码的可压缩理论依据,包括有损压缩的率失真理论、子带理论和带宽可伸缩编码理论。
第四章详细介绍正交镜像滤波器组的原理,并详细分析了其误差组成及消除误差的办法。提出一种基于蚁群算法的滤波器优化算法,并用实验对算法进行检验。
第五章提出一种新的子带结构带宽可伸缩编码器的结构,详细介绍其核心层、增强层的编解码过程,并对编码方案进行实验分析。
第辣章对本论文进行总结,指出本文提出方法的不足之处,并对未来的研究方向进行展望。
语音压缩编码的研究已有几十年的历史。半个多世纪来,各国学者做出大量的努力,从人类发音机理和听觉机理出发,对语音的基本元素的声学特性、频谱特性和语意表达等做了大量研究,建立了发音模型、听觉模型,在不同程度上逼近真正语言的过程。近年来,一些国家和国际标准化组织相继制订了语音压缩编码的标准,直接推动了语音压缩编码的发展。在通信系统中,语音压缩编码技术在很大程度上决定了接收语音质量和系统的容量。在保持一定的算法复杂度和通信时延的前提下,语音编码的目标是用尽可能低的码率获得尽可能好的合成语音质量。语音压缩由编码和解码组成,编码是把存在于波形文件里的数字语音数据转换成高度压缩的形式,即为比特流。解码是把比特流重建为波形文件,并在声卡上播放。在编码器部分,其效率和复杂度是正比例的关系。一般来说,要想效率高,算法就越复杂,时延与费用也会越高。因此必须寻求一个平衡点,使编码器具有较高的编码效率和较低的复杂度。目前最高的编码效率一般是通过开发信号冗余和基于人类听觉系统模式的频域不相关算法得到。编码机制[3]可以描述为“知觉噪音成型”或“知觉边带/变换编码”。在量化与编码阶段,编码器试图同时满足比特率和屏蔽要求。而解码器部分,其复杂程度小很多,它是从已编码的频谱成分中把音频信号合成语音。
自从1939年美国的Homer Dudley发明声码器以来,语音处理开始了参数编码或模型编码的研究,它是以滤波器为主体构造的通道声码器。20世纪60年代中期形成了一系列的数字信号处理方法,语音信号数字处理的基础理论包括数字滤波器和快速傅里叶变换。另外,短时分析是语音信号处理的经典方法。在20世纪70年代后,人们对语音技术非常感兴趣,做了很多研究,同时也取得了很多进展。目前,线性预测分析已广泛应用于语音信号的分析、合成及其它应用领域,它已是语音信号处理工具。矢量量化(Vector Quantization, VQ)是70年代后期发展起来的一种数据压缩技术。VQ 技术在语音信号处理,它广泛地用于图像压缩、语音和模式识别等领域。语音信号处理的这些关键技术都是建立在语音信号的数字模型基础之上。
利用数字技术来模拟语音信号的产生称为语音信号的数字模型[3-6],或者说利用数字信号处理技术来实现发音器官的模拟。发音器官能发出一系列声波,那么数字模型就能产生与此声波相对应的信号序列。这种模型是一种线性系统,它的一组参数选定之后就可以使得系统的输出具有所希望的语音性质,系统的这些参数是和语音产生过程有关的。为了表示采样的语音信号,一般采用离散时间模型。
激励模型即发声模型,发清音时,声道可模拟成随机白噪声。发浊音时,整个激励模型如图2.1:若图片无法显示请联系QQ752018766,本论文免费
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] ... 下一页 >>