(2)语音特征的提取,包括语音端点的准确检测、反映人的感知特征的鲁棒特征参数的提取和设计新的语音特征测度来最小化分类误差使特征参数最优。
(3)利用语音语料库进行声学模型及训练的研究,包括HMM模型研究和神经网络模型研究等。
(4)不依赖说话人的声学模型的研究,如树结构模型的说话人聚类研究、使用少量数据进行适应性研究、增加在线适应性研究等。
(5)利用语言语料库进行语言模型和语言学约束的研究。
(6)词典设计和候选词有效搜寻的研究。
值得一提的是,语音识别技术在网络方面的发展势必引入云技术,好处是:
(1)在用户层面上,云端向终端提供了革命性的计算和存储能力。
(2)对于运营商而言,云服务运用还非常易于获得海量有标签的训练样本,从而帮助研究人员持续改进识别性能。
(3)云语音更将挑战“发音习惯”、“用词习惯”等传统技术难以解决的技术难点。
3 语音识别芯片
LD3320是基于非特定人语音识别(SI-ASR:Speaker-Independent Automatic Speech Recognition)技术的语音识别芯片,提供了真正的单芯片语音识别解决方案。芯片上集成了高精度的A/D和D/A接口,不再需要外接辅助的Flash和RAM,即可以实现语音识别、声控、人机对话功能。并且,识别的关键词语列表是可以动态编辑的。只需要设定好要识别的关键词语列表,并把这些关键词语以字符的形式传送到LD3320内部,就可以对用户说出的关键词语进行识别。不需要用户作任何地录音训练。基于LD3320,可以在任何的电子产品甚至包括最简单的以51单片机为主控芯片的系统中,轻松实现声控功能,为所有的电子产品增加VUI(Voice User Interface)语音用户操作界面[14,15]。
3.1 LD3320工作原理
语音识别的方法有模式匹配法、随机模型法和概率语法分析法。本课题基于芯片LD3320的设计所涉及的语音识别技术,运用的是目前主流的基于“关键词语列表”的模式匹配法。
语音识别芯片完成的工作就是:把通过MIC输入的声音进行频谱分析→提取语音特征→和关键词语列表中的关键词语进行对比匹配→找出得分最高的关键词语作为识别结果输出。
图3.1 LD3320工作原理图
语音识别芯片能在两种情况下给出识别结果:
(1)外部送入预定时间的语音数据后(比如5s的语音数据),芯片对这些语音数据运算分析后,给出识别结果;
(2)外部送入语音数据流,语音识别芯片通过端点检测VAD(voice activity detection)检测出用户停止说话,把用户开始说话到停止说话之间的语音数据进行运算分析后,给出识别结果。
对于第一种情况,可以理解为设定了一个定时录音,芯片在5s后,会停止把声音送入识别引擎,并且根据已送入引擎的语音数据计算出一个识别结果。
对于第二种情况,需要了解VAD的工作原理:VAD(Voice Activity Detection)技术是在一段语音数据流中,判断出哪个时间点是人声的开始,哪个时间点是人声的结束。判断的依据是,在背景声音的基础上有了语音发音,则视为声音的开始。而后,检测到一段持续时间的背景音(比如600ms),则视为人声说话结束。通过VAD判断出人声说话的区域后,语音识别芯片会把这期间的声音数据进行识别处理后,计算出识别结果。
用户可以通过编程,设置两种不同的用户使用模式——“触发识别模式”和“循环识别模式”。
- 上一篇:HFSS双馈圆极化收发天线单元的研究
- 下一篇:无线电引信交会试验仿真分析
-
-
-
-
-
-
-
杂拟谷盗体内共生菌沃尔...
中考体育项目与体育教学合理结合的研究
当代大学生慈善意识研究+文献综述
河岸冲刷和泥沙淤积的监测国内外研究现状
电站锅炉暖风器设计任务书
大众媒体对公共政策制定的影响
java+mysql车辆管理系统的设计+源代码
酸性水汽提装置总汽提塔设计+CAD图纸
十二层带中心支撑钢结构...
乳业同业并购式全产业链...