语音是人们日常交流最直接、最必不可少的方式,通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。在所有人类语言中,而汉语是世界上最主要语言之一,使用人数也是最多之一,约有14亿,而将汉语当作母语的人有9.4亿左右。除了在中国以外,汉语还广泛分布在一些东南亚国家,甚至美国,欧洲等地也有。汉语是声调语言,汉语普通话中,第一声第二声第四声是单调变化的,而第三声则不同,这就使得传统语音信号处理技术想要准确的检测到变得困难。语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。
在汉语语言中,元音,是指在发音的时候,气流没有受到阻碍而顺畅的经过口腔所发出的音。从声学原理上讲,之所以会发出不同的元音,是因为在发音时,人所用的力不同,发音的长短不同,舌头的变化位置不同,声带振动周期不同所致。发出元音的信号源包含一个基频和一系列谐波。当对这些谐波进行调制处理时,由于频率不同,这些被调制的波有的被加强,有的被抑制,这其中被加强的就是本课题所要研究的共振峰。很多时候,声道脉冲响应衰减定义正弦共振峰成分较复杂的共振峰信道传递函数极点的语音信号的经典模型。共振峰语音信号的模型,如果要显示出比较优良的清晰度,那么改变前三个共振峰的频率就可以明显的看出。
汉语普通话中每一个音节都包含一个元音,或称为韵母。韵母总共有38个,其中8个是单韵母,14个是复韵母,16个是鼻韵母。在发单韵母时发声器官的状态基本不变,因而这些音的语谱图振峰的位置是基本保持不变的;单韵母是比较稳定的,而复韵母就不同,它表现出不断变化的特性;鼻韵母是以[n]或[ng]收尾的韵母,鼻韵母的重要特征就是主元音同时受到介音和鼻尾的影响,而且两种影响都比较大,后者成为元音鼻化,而元音鼻化会导致主元音各共振峰的宽度和强度都有较大变化。由此可见,准确检测出汉语共振峰的特性对汉语信号分析及识别具有重要意义。本课题拟利用系综经验模式分解(EEMD)进行汉语共振峰检测,解决传统共振峰检测工具在提取共振峰时会出现虚假峰值和共振峰合并的问题。
发音信息的最直接的来源就是以共振峰为代表的,而且人在语音感知中也利用了共振峰信息。所以显而易见的,在语音识别的主要特征和语音编码传输的基本信息之中,共振峰都是被广泛使用的信息。
1.2 目前存在的问题
与基频提取类似,准确的估计共振峰的值也是比较困难的,这些困难是:①虚假峰值。在通常的情况下,共振峰引起了频谱包络的最大值。但是虚假封住也会随之出现,在一般情况下,在利用所述线性预测的方法之后,该情况会出现更少的虚假峰值。②共振峰合并。靠近的共振峰的频率会因为距离太近导致分辨困难。这时便会产生共振峰合并现象。③高音调语音。在传统的方法中,根据谐波峰值所显示的样点来确定频率值,此时谐波的间距较大,所以可以给出的样点相对就少。使用这个问题的线性预测谱包络的估值也可能发生在高亢的声音,线性预测信封往往离开真实峰值位置移向最近的谐振峰。
1.3 本文研究的内容和组织安排
本文对汉语共振峰检测算法进行了研究,各章节内容归纳如下所示:
第一章:主要介绍课题的意义和背景,并对该课题在目前存在的一些问题作简要的介绍; 基于系综经验模式分解(EEMD)的汉语共振峰检测算法(2):http://www.751com.cn/tongxin/lunwen_13521.html