语音识别的研究工作可以追溯到奥德里系统的AT&T贝尔实验室在20世纪50年代,它是第一个语音识别系统,可以识别10位字母数字。 但真正取得实质性进展,并在20世纪60年代末和70年代初的一个重要问题进行研究。这主要是因为计算机技术的发展,以提供语音识别硬件和软件的实现可能是更重要的是语音信号的线性预测编码(LPC)和动态时间规整(DTW)技术,提出有效的解决语音信号特征提取和长度不等的匹配问题。这个时期主要是基于语音识别模板匹配原理的研究领域是有限的孤立词识别一个特定的人,词汇量小,基于线性预测倒谱和DTW特定人的孤立词语音识别系统;建议矢量量化( VQ)和隐马尔可夫模型(HMM)的理论。9106
随着应用领域的扩大,词汇量小,具体的,孤立词语音识别的约束需要放松,同时它也带来了许多新的问题:一是扩大词汇使得模板的选择和建立的难度; ,连续语音,有个别音素,音节和单词之间没有明确的界线,发音单位存在上下文强烈影响现象的协同发音(合作发音),非特异性识别,不同的人说相同的声学特性非常不同,即使相同的人说同样的内容在不同的时间,生理,心理状态,那么就会有很大的差异,确定了背景噪音中的声音或其他干扰。因此,原来的模板匹配的方法已不再适用。
实验室语音识别的研究取得重大突破是在20世纪80年代的结尾:这是最后的一个突破,在实验室的大词汇量连续语音和非特定的三个主要障碍,这三个特点,第一是集成在系统中,较为典型的卡内基 - 梅隆大学(CarnegieMellonUniversity),狮身人面像,它是第一款高性能的独立扬声器,大词汇量连续语音识别系统。
在此期间,进一步深化其突出特点是语音识别研究的HMM模型和人工神经网络(ANN)在语音识别中的成功应用。 HMM模型广泛的应用应归功于科学家的努力,AT&TBell实验室Rabiner,否则难以理解HMM纯数学模型工程,知识和了解更多的研究人员,这样的统计方法,语音识别技术的主流。
研究者的关注,从微观到宏观的统计方法,不再刻意追求语音特征的细化,但更多的角度打造最好的语音识别系统的整体平均(统计)。基于马尔可夫链HMM(隐马尔可夫链)的声学模型的语音序列建模方法更有效地解决短期稳定的语音信号随时间变化的特性,很长一段时间,并根据一些基本的建模单元配置连续语音句子模型来实现一个相对较高的建模精度和造型的灵活性。在语言级别上,通过统计真实大规模语料库字来区分相同的发生概率,N-统计模型来识别模糊音同音。此外,人工神经网络,基于语言处理机制也语音识别应用程序的语法规则。
20世纪90年代初,许多知名企业如IBM,苹果,AT&T和NTT实用的语音识别系统投 了大量的钱。语音识别技术有良好的评价机制,那就是识别的准确率,这个指标在20世纪90年代后期的实验室研究已不断提高。比较有代表性的系统:IBM推出NaturallySpeaking对Nuance的公司NuanceVoicePlatform的语音平台,微软的??耳语,太阳VoiceTone的ViaVoice和DragonSystem的。
中国ViaVoice的语音识别系统,IBM在1997年开发,并于次年,先后开发了语音识别系统可以识别上海话,广东话和四川方言,本地口音ViaVoice'98。有了一个32000个字的词汇可以扩展到65000个字,包括办公室常用的条目,“校正机构”,平均识别率可以达到95%。新闻语音识别系统,具有精度高,是代表中国连续语音识别系统。
1.2.2 国内现状
语音识别在中国的研究开始于20世纪50年代,但近年来发展迅速。研究水平逐步从实验室走向实用。从1987年国家863计划,国家863计划智能计算机专家组专为语音识别技术的研究项目,每两年滚动。语音识别技术的研究水平已基本上与国外同步,并达到了国际先进水平,在中文语音识别技术也有其自身的特点和优势。自动化研究所,中国社科院声学研究所,清华大学,北京大学,哈尔滨工业大学,上海交通大学,中国科学技术大学,北邮,华中科技大学和技术学院和其他研究机构的实验室的语音识别的研究,其中有代表系清华大学电子工程,自动化,模式识别国家重点实验室,研究所和中国社科院的单位。 语音识别的国内外研究现状:http://www.751com.cn/yanjiu/lunwen_7709.html