二十世纪三十年代到五十年代,是语音识别的探索阶段。这个时期的研究主要是针对语音特征,特别是语音频域特性以及人耳的功能等方面。通常把人耳的功能等效为带通滤波器,依据人耳对语音共振峰位置比较敏感的特点进行研究。10590
一般认为最早的语音识别实验是由法国人Drey和Grof在1950年完成的,他们将语音信号通过751个带通滤波器,由各通道的能量控制电子束偏转线圈磁场,不同的声音给出不同的轨迹,以此区别不同的声音。1952年Bell实验室的Davis等依据元音的谱共振,实现了世界上第一台能识别特定人10个英文数字的语音识别系统,标志着语音识别研究工作的真正开始。
751十年代中期以后,计算机产业的迅速发展给语音识别提供了实现复杂算法的软、硬件环境,并提出了使用要求。同时,数字信号处理理论和算法也取得了飞跃发展,产生了快速傅立叶变换、倒谱计算、数字滤波器等算法和理论,大大促进了语音识别技术的发展,并使语音识别的研究从模拟技术转入数字技术。
七十年代开始,语音识别技术在理论和实践中都得到了迅速发展。语音识别的两大基本技术——特征提取和模板匹配技术取得了长足的进步。但这一时期仍然着重于特定人、小词汇表、孤立字的识别。这一时期的特征提取技术形成三个主要方法:频谱分析、线性预测分析和倒谱分析。
进入八十年代后,语音识别的研究逐渐从特定人、小词汇表、孤立词识别向大词汇表、非特定人、连接词和连续语音识别转移,出现了以隐马尔科夫模型为框架的语音识别方法,并迅速成为语音识别的主流方法。这一时期出现了许多由HMM构成的语音识别系统。
进入九十年代以后,小波理论得到迅猛发展。人们发现小波能够很好地模拟人耳的谱分辨特性,克服傅立叶变换在分辨率上的局限性,因此出现了基于小波理论的特征提取方法。同时随着计算机的运算能力和内存的迅速增长以及硬件价格的大幅度下降,人们也越来越重视语音识别模块和芯片的研究和开发。面对各种用户、各种使用环境,人们也在研究更具有适应性和抗噪性的识别系统。
目前,国际上对语音识别的研究正趋于商品化和实用化,移动互联网的兴起成为ASR最重要的应用环境之一。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向,包括Android系统内嵌语音识别技术、Google语音翻译、iPhone4S上的Siri软件等。
随着用户对语音识别系统性能的要求不断增加,新的问题不断出现,语音识别技术必须不断改进。新技术和新理论仍在不断涌现,必将进一步推动语音识别技术的发展。
2.3.2 国内语音识别技术的发展及现状
我国语音识别的发展起步于五十年代。根据汉语的单音节以及音节个数固定的特点,我国研究者提出了汉语音节识别方法。中国科学院声学所于1978年推出第一个实时语音识别系统。随后,哈尔滨工业大学的微机语音识别接口于1983年通过鉴定。1984年,中科院自动化所根据汉语的特点,将声母和韵母分开识别,取得了很好的效果,至今仍有许多识别系统采用该方法。从八十年代末到九十年代初,一些中、小词表的语音识别系统已投入实际使用。
近十几年来,我国的语音识别研究也向大词汇量、非特定人、连续语音方面发展,并得到政府和各基金部门的关注和大量资助。国家863智能计算机专家组于1998年4月组织了对国内大词汇量连续语音识别系统的评测。清华大学电子工程系的语音识别系统获得了最好的成绩:字正确率为93%,句子正确率62.5%,其结果和IBM语音识别系统水平相当。中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,字准确率和系统响应率达90%以上。这些成果表明我国的语音识别研究已接近国际水平。 语音识别技术国内外研究现状:http://www.751com.cn/yanjiu/lunwen_9684.html