1.1 选题背景及意义
如何更好地实现计算机智能接口与人机交互,语音信号处理就是其中的解决方法之一。语音识别技术所要完成的基本任务,就是是将输入的语音信号顺利转化为相应的命令或者文本。在如今这个信息化的社会,语音识别技术受到了越来越广泛地运用,在很多相关行业、数字通信领域中已经成为了成为一个具有很强竞争力的关键甚至核心技术。比如在数字声控的方面,计算机能够识别输入的语音信号,并且根据得到的指令来执行完成一系列相应的命令操纵。语音识别也可以通过口头表达的方式直接将语音内容输入到相应的设备中来,这就是现在被广泛研究的听写机研究方向,例如声控打字机等。自动口语翻译也充分运用到了语音识别的相关技术,机器首先识别输入的相应的语音信号,然后将信号进行翻译,再通过语音合成技术将语音合成,这可将一种输入的语言进行翻译成,输出另一种语言的语音,从而达到了不同语种的语言能够实现相互交流的目的。随着计算机技术越来越迅猛的发展,各式各样的移动设备,便携式的计算机设备更加广泛的应用到人们的日常生活中来,人们对这些设备的要求也越来越高,比如进行语音输入,通话语音命令使得设备完成操作,从而解放用户的双手与眼球,仅仅通过嘴耳就能完成想要的操作,极大地便捷了用户的操作,有效地改变人机交互手段,使得人机交互方式向着更加友好的方向发展。现在市面上的一些手机,平板电脑都具备这样的功能。
近年来,我国的改革开放程度的不断深化,我国在国际上的地位也在不断得到提升,汉语的地位也随之提升,全球范围内都掀起一股汉语热。汉语正在成为一门越来越流行重要的语言,汉语的语音识别也受到了越来越多的重视,国外很多著名的公司,比如Microsoft、IBM等都在国内设立了研发机构,并且将汉语语音识别作为主攻方向之一。
语音的音色决定了一个人发出的是什么音,要做语音识别,通俗来说就是要是的机器能够识别人发出的到底是什么音,只有这样机器才能对语音信号进行识别。
在语音频谱图中,不同的元音的音色会直观的反映在了同的频谱结构中,各元音音色上的差异,常常可以用前三个共振峰频率来表示。对本文希望通过对汉语元音共振峰特征值的分析,对汉语元音的特性有所了解。
1.2 研究背景
早在一两千年以前,人们对语言的研究就已经开始进行了。受限于当时的科学技术发展水平,在当时并没有相应的仪器设备用于语音研究,一直以来人们都是由耳朵的倾听和用口舌的模仿来进行研究的。这样的语言研究被人们称之为“口耳之学”,对语言的描述仅仅停留在定性上。
单单的对语音识别而言,它的目的就是让机器能够识别和理解所接受的语音信号,能够把接收到的语音信号转变为相对应的命令或者文本,通俗一点就是让机器明白你说了什么,要它做什么,研究出一种机器,使其具有具有类似于人的听觉功能,像人一样能听懂人的声音,并且理解人的意图。由于语音识别本身所具有的难度,包括多变性、瞬时性、连续性、动态性等等,人们提出了各种的限制条件以方便开展研究,这样的限制条件导致了不同的研究领域的发展。这些限制条件包括:对说话人依赖程度的限制,对语音词汇量大小的限制,对说话人说话方式的限制。
语音识别技术真正开始于20世纪50年代,贝尔实验室研发了能够识别10个英文数字的语音识别系统——Audry语音识别系统。1959年Fry和Denes等人采用频谱分析和模式匹配来构建音素识别器,以此实现了识别4个元音和9个辅音的目的。其突出贡献在于,使用了英语音素序列中的统计信息来改进词中音素的精度。 汉语元音共振峰特征值分析(2):http://www.751com.cn/jisuanji/lunwen_24032.html