基于中文语音识别技术的指挥训练系统的设计与实现(2)

1.1 课题研究背景及意义
针对语音识别的研究早在1952年就开始，从一个仅能识别10个英文数字发音的系统到成型的计算机语音识别系统[1]，而大型的研究则是70年代以后，不过针对的也只是小词量的识别。大规模的识别研究在80年代之后，且研究的技术从模板识别转变为统计模型研究[2]。90年代则进入应用方向发展。
美国于70年代就开始一个将近20年的语音识别计划，早期研究语音的理解系统。之后研究了噪声下的语音识别，数据库容量为一千个单词。最后还研究了自然语言处理，主要检索航空旅行信息[3]。这个计划为DARPA(Defense Adwanced Research Projects Agency)，后又有人提出了线性扩展用于特征抽取语音信号。而日本的研究则在80年代开始，内容没有太大的创新，通过非线性时间匹配研究识别模式，并在应用方面有进一步成果。
大词量的识别研究和针对非特定人的语音识别期间，CMU的J.K.Baker以及IBM的F.Jelinek等人提出了隐马尔科夫模型(HMM)技术和统计模型，这种模型效率更高、效果更好，在词汇的语法、词构等方面也有了更深入的研究。后又引入人工神经网络，用于区分模式[4]。其中IBM的ViaVoice和Dragon Dictate系统，这些系统的深入广泛应用在电话语音识别方面，以及连续语音识别的发展，训练简化的同时提高了识别率。
国内的研究起步较晚，前期研究没有突破，进展较慢，也是从10个元音的识别发展到设计语音识别[5]。改革开放以后，我国的计算机领域有了广泛的应用，且受到国外研究语音识别的热潮影响，使得我国在这方面的研究投入更多，语音识别技术得到进一步发展。通过国家的计划研究，更规范的展开了技术的发展和进步。国内研究所和高校都进入语音识别训练的研究，且这些系统的性能都各具特色，例如孤立字的研究以清华大学为代表，在92年成功设计了THED-919特定人语音识别与理解实时系统，另外还有声控电话查号系统在非特定人语音识别方面的研究[6]；四川大学则实现了汉语语音翻译演示系统。
语音识别在汉语上的应用更具有多变性，进行声学模型训练时考虑声母韵母的发音，国内的一些论文研究采用了基于决策树的三音子建模技术。还有一些算法如基于动态时间规整DTW)算法、基于非参数模型的矢量量化(VQ)方法和支持向量机等语音识别方法[7]。基于语音识别芯片的嵌入式产品也越来越多，如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等，这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上，目前比较成功的连续语音识别软件有：Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK。
1.2 论文研究内容
本文的设计环境是win7下eclipse6.1系统，运用Sphinx识别引擎，在模拟船舰指挥系统环境下对测试人员进行语音识别训练,本文的连续语音识别系统采用语音信号特征提取、声学模型和语音模型训练以及语音识别系统设计等部分组成[8]。
第一章为本课题的研究背景和意义,简单阐述了本文的研究内容.
第二章介绍了系统搭建,包括语音识别引擎Sphinx-4的简介和系统架构。
第三章是船舰指挥指令的语音识别关键问题，对指令的语音特征分析，给出可运用到系统的指令规范。
第四章主要内容是有关声学模型的训练，应用SphinxTrain工具，对音频文件经过一系列处理，得到声学模型参数文件。最后针对Sphinx-4具体说明了中文训练时需要注意的事项。
第五章通过语音模型的训练，采用N-Gram模型得到语音模型文件。
第751章给出安装环境和需要的文本资料，输入语音之后，进行声学训练，最后通过Sphinx-4引擎解码，获得指令的文本，将之与考核指令比较，分析得出评定。基于中文语音识别技术的指挥训练系统的设计与实现(2):http://www.751com.cn/zidonghua/lunwen_10997.html