语音识别的研究工作开始于50年代,当时AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统)))Audry系统。60年代,计算机的应用推动了语音识别的发展。其中,动态规划(DP)和线性预测分析技术(LP)等技术的提出和运用,对语音识别的发展产生了深远影响。
70年代,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟。特别是矢量量化(VQ)和隐马尔可夫模型(HMM)理论在实践上的运用,初步实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。
20世纪80年代,随着HMM模型和人工神经元网络(ANN)等技术在语音识别中的成功应用,人们终于在实验室突破了大词汇量、连续语音和非特定人这三大语音识别障碍。在声学识别层面,以多个说话人发音的大规模语音数据为基础,通过对连续语音中上下文发音变体的HMM建模,语音音素识别率有了长足的进步;在语言学层次,以大规模语料库为基础,通过统计两个邻词或三个邻词之间的相关性,可以有效地区分同音词和由于识别带来的近音词的模糊性。另外再结合高效、快捷的的搜索算法,就可以实现实时的连续语音识别系统。
90年代之后,语音识别与自然语言处理相结合,发展到基于自然口语识别和理解的人机对话系统。与机器翻译技术相结合,逐步发展出面向不同语种人类之间交流的直接语音翻译技术。我国的语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入/8630计划,由中科院声学所、自动化所及北京大学等单位组织研究开发。目前,国内也涌现出了诸如科大讯飞和北京捷通等专业研究和开发语音识别产品的高科技公司[11]。
1.1.2国际发展现状及中国的发展状况及前景
语音-文本转换(voice-to-text)软件和自动电话服务等应用背后的关键技术是语音识别。在这些应用中语音识别准确率是至关重要的,而为了做到这一点,语音-文本转换软件通常要求用户在安装过程中对软件进行“训练”,软件本身也要随着时间的推移慢慢适应用户的语音模式。需要与多个说话者互动的自动语音服务则不允许存在使用者对软件进行训练的环节,因为它们必须能够在第一时间为任何用户服务。为了解决识别准确率较低的问题,这些系统要么只能处理很小的词汇量,要么严格限制用户可以使用的字句或模式[12]。
自动语音识别的最终目标是提供即买即用、可以自动快速适应任何说话者的语音识别服务,这个系统不需要用户训练就可以针对所有用户和各种条件,良好地发挥功用。
“这个目标在移动互联网时代显得尤为重要,”俞栋博士表示,“因为语音是智能手机和其他移动设备必不可缺的接口模式。虽然个人移动设备是采集和学习用户语音的理想设备,但用户只有在初始体验,也就是在针对该用户的模型建立之前的体验非常良好时,才会继续使用语音功能。”
非特定人语音识别技术对于没有机会或办法适应用户的语音识别系统也非常重要,例如在呼叫中心,来电者身份是未知的,而且通话时间只有几秒钟;又例如用户可能会因为担心隐私问题而不愿意在提供“语音-语音(speech-to-speech)”翻译的网络服务中留存语音样本。
我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智 能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优 势,并达到国际先进水平。其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。