参 考 文 献 31
1 引言
语音是人与人进行交流的一种最直接、最自然、最方便的方式。它的传播速度快,无严格的方向限制,又可以在黑暗中传播,是图片、文字或按钮等其他视、触觉信息无法替代的工具[1,2]。语音识别(ASR,Automatic Speech Recognition)技术最重要的现实意义就在于提供了一种脱离视觉和触觉的基于语音的用户界面(VUI,Voice User Interface),使得用户对于产品的操作更快速、更自然。
早在二十世纪四、五十年代,人们已经开始进行ASR技术的研究。随着计算机的出现和发展,与机器进行语言交流使之理解人的语言并执行人的旨意,就一直是人们的梦想和追求。而“人—机交流”的首要前提是机器能够识别人类的语言,即进行语音识别[3]。
语音识别属于数字信号处理的研究领域,其算法初期是依靠计算机、数字信号处理器等来实现的,但随着微电子学和集成电路技术的发展,近年来不断有专用语音识别芯片投放市场[4]。在现有的许多产品例如LD3320中,集成了语音识别、声控、人机对话功能,识别的关键词语列表是可以任意动态编辑的,满足了小体积、低功耗、易于通用的要求,因而本声控系统有着广泛的应用前景[5]。
语音识别有着非常广阔的应用领域,例如智能家居、智能玩具、自动售货等等,这些领域下语音控制提高了设备的易用性。另外,在某些场合操作者需要用手控制其它设备,比如驾驶员驾驶过程中,其双手不宜离开方向盘,这时的导航操作用语音控制最合适;或者非常强调响应时间,比如军事训练中的紧急处置,不允许操作者进行复杂的手动操作,语音控制就成为一项必要的选择。采用语音识别作为人机接口的设备能够具有简便、快捷、灵活的优点,其在军事、民用和商业领域都发挥了巨大的作用,一定会在未来成为新一代操作系统的接口[6-10]。
2 语音识别技术
2.1 语音识别的基本概念
语音识别本质上是一种模式识别,其根本目的是研究一种具有听觉功能的机器,使机器能够直接接受人的口呼命令,“理解”人的意图并做出相应的反应。“理解”有两种含义:一是将语音逐字翻译为相应文字,如语音听写机;二是对语音所表示的意义做出正确的响应,如声控机器按照语音命令执行相应的操作[11,12]。
语音识别的应用领域不同,对语音识别系统的性能和指标的要求也不同。下面介绍几个常用标准:
每个语音识别系统都有一个词汇表,系统只能识别词汇表中的词。词数目小于100的称为小词汇表,词数目介于100至500之间的称为中词汇表,词数目大于500的称为大词汇表。词的数量越大,系统的实现越困难。
语音识别按照说话方式可分为孤立词识别、连接词识别和连续语音识别三种方式。孤立词识别是指说话人每次只说一个词、一个词组或一条命令让系统识别,其中的词组或命令在词汇表中都算作一个词条。连接词识别一般特指十个数字(0-9)连接而成的多位数字的识别,例如7位电话号码,有时还加有少量操作命令词,这时词汇表由十个数字及少数命令词构成。连续语音识别是指说话人以自然方式说话让系统识别。
语音识别系统可以只针对一个人,称为特定人(SD,Speaker Dependent)工作方式;也可以针对任何人,称为非特定人(SI,Speaker Independent)工作方式。
若识别系统只需识别说话人话语中的关键词条,则称为关键词确认技术。若识别系统必须准确无误地识别语音,则需进一步识别语音中的语义信息(Semantic Information)和语用信息(Pragmatic Information)。 STC10L08XE基于语音识别的智能控制系统开发(2):http://www.751com.cn/tongxin/lunwen_9683.html