想要能知道制造这样的设备,第一个要点就是技术层面,不外乎就是自动语 音识别,这个方面能够有所突破。把说话人的语音通过自动识别来进行“理解”, 然后把它转换成文字文本。从上世纪 40 年代起,不管是出于对识别语音的好奇 心还是人机交互发展的迅猛需求,很多研究学者都花费了巨大的人力物力去研究 这个范畴,并且这些学者也取得了相应的可观的成就[1]。
1.2 语音识别的研究现状
目前语音识别的研究现状可参照下图 1-1 所示: 毫无疑问,语音识别真正意义的突破就在于 HMM 语音模型上了。在应用上,
手机的语音助手以及其他语音类软件为主的移动终端也对人类的日常生活给予 了很大帮助。国外比如苹果的 Siri,国内比如手机的语音输入法都利用了这一技 术并且取得良好效果。
1.3 研究问题及内容
1.3.1 研究问题
在语音识别范围,有关于 deep learning 已经有了不少成功的案例,但是网络 设计方面其实还有很多地方需要我们去探索,有很多繁琐的问题亟待解决。学者 们研究找寻出如下问题:(1)合适 deep learning 模型怎样构建;(2)语音识别方面 的技术能否提高声学模型原有成效。(3)在 deep learning 中,如果涉及到有约束的 监督的时候,整体网络的鲁棒性怎样完美提升[2]。(4)系统内部性能的提高和所需 的网络算法有很大的关联。
1.3.2 研究内容
语音识别的研究现状
本篇论文研究以 deep learning 为基础的语音识别,文章把 deep learning 理论 当做基本,辅以声学特征提取、语音属性和声学模型,同时研究它的应用:(1) 利用有监督学习来提取语音中的高级特征。(2)语音属性特征利用深度神经网络 来提取,然后对属性特征在语音识别上作更深入学习研究。(3)在深度网络基础 上,用声学模型去建立模型。能够清楚地知道高斯混合模型以及深度网络的结构 不一样, 然后在 Kaldi 语音识别的平台上各自采用基于 GMM-HMM、 基于 DNN-HMM 以及基于 CNN - HMM 的声学模型建立模型,最后载利用计算的算 法来校验声学模型里面的深度网络应用强度。
1.4 论文结构
按照文章主旨即基于 deep learning 的语音识别研究,可以把文章内容涵盖的 部分分成如下几点:
第一章主要介绍了语音识别技术之前的概况,还有它的研究现状,从语音识 别的一些实例介绍了不足之处,然后顺理成章地引出了 deep learning 的理论知识, 还有它本身在语音识别里面的可利用性[3]。
第二章就是简单介绍了语音识别的理论知识,这里面详细地介绍了特征提取、 声学模型、语言模型这几种重要的提取和识别模块,当然还有必不可少的解码部 分。
第三章是 deep learning 的基础理论,从 deep learning 的基本原理、模型构成 到训练方法流程等方面详述。
第四章是基于 deep learning 的语音特征的提取和应用,简单概述了该应用, 并且做出了相应的实验,附上了实验的算法以及代码,从而能够更深一步地去研 究该应用。
第五章就是总结部分了,这个部分一般都是概括文章的大致情况,当然还有 对未来研究方向的展望,理清了一些研究方向和思路。
2 语音识别基础理论
2.1 语音识别基本原理
语音识别,顾名思义,就是把我们日常生活里面听到的语音通过一些设备转 换成文本信息,再利用声学的特点去提取以及语音模型、声学模型还有解码器之 类构成。它的全部过程先是收集有过特征训练的原始波形,然后和发生器、词典 之类的进行匹配,最后采用解码的办法来实现语音识别的最终表示。