当下,主要研究内容分为下几个方面:
(1)关于提高语音识别系统健壮性的研究。如我们所知,自然界的语音纷繁复杂,基本不会出现单一的声源,而不会受到其他声源的影响,语音识别的实际操作环境亦是如此,复杂的环境给系统提出了更高的要求,为了提高识别的准确性,如何让系统更加健壮,不受噪声的影响就显得尤为重要。
(2)关于如何提高语音识别系统的灵活性的研究。
人类的语言比如汉语有着数目众多的近义词和发音相仿的词语,且受语法和句式的影响,语言呈现出不规律性,无法用特定的模型对其加以描述,所以对于句子这一连续性和变化性较强的结构进行识别的难度还是相对较大的,对应的模型应该是更加动态的,它们的识别还需要更新更完整的运算思路来完成。
(3)关于如何识别语音中的韵律信息的研究。韵律是人类使用语言表达感情时的一个重要手段,不同的语速,不同的重音,还有不同的声调,都能表达出十分丰富的语言信息,有时可以造成十分大的差异,因此对其的研究也关系着系统能否更加准确地完成对目标的识别。
(4)关于如何加入自适应性元素的研究。人具有个体性,即使是通种语言,由于地理条件,生理和心理因素的影响下,发出的语音必定是有区别的,实际体现在口语中的方言,以及语法的规范程度,语速的差异等。同时,如果实验环境与实际环境差异较大,识别结果也一定会受到影响,因此,考虑自适应性因素对于语音识别系统也是十分重要的。
(5)关于如何切分语音相关算法的研究。在语音中元辅音之间有时会混杂在一起从而难以分辨,还有时两个音会相互关联,相互影响,从而使各个音不再呈现原本的性质,这点在汉语中也显得十分明显,另外在真实环境中,有的人在对话时过于连贯,从而使太多的音粘连在一起,这无疑都增加了识别的难度,所以如何将这些性质改变或者粘连在一起的音进行切分,也是关系到系统是否能进一步完善的关键技术。
(6)尝试将其他相关学科与该技术相交叉,如我们所知,语言是人类智慧的象征之一,从古至今,它都不仅仅作为一种交流的工具这么简单,他包含了人类的认知过程,思想过程等心里过程,同时,作为一个动态整体,人又具有生理上的不确定性,就如同在不同的生理状态下,人的表现肯定也是不同的,所谓术业有专攻,单凭计算机学科的力量恐怕没有办法完成对此涉及面广泛且动态的系统进行全面且准确地模拟,因此将各个学科交叉进我们的研究便成为了一条可行的道路。
1.3.2 语音识别分类
(1)按照发音方式划分:
相互之间不连贯的词,这样的识别相对而言是比较简单的,比如说单独的数字或者说是单独的字母,没有必要对其进行模式化的分析,且该方式多用于比较简单的系统,本文后面要做的对于元辅音的分析其实也可以定义为此类的识别。
连接词识别针对于多个不相关词的连接体,尽管它们的以之间会有一定的分离,但个别词的连音在所难免。但这样的方式所涉及到的句式构成相对比较清晰,我们可以构建相应的标本库,与其进行对照,从而完成识别,这样的系统有一定的应用空间,可以用于比较固定格式的查询和命令较为明确的控制系统里面。
连续语音识别面向自然语句,其中各种,现象比较全面,近乎于实际环境下的情况,因此句式和发音更为多变和模糊,如同我们之前的分析中讨论到的那样,这种条件下的识别是我们的技术领域的一大难题。
(2)按照研究对象即说话人的不同特点可将其分为: VC++语音信号的语谱图绘制与特征分析(3):http://www.751com.cn/jisuanji/lunwen_22234.html