语音信号的语谱图分析与传统的语音分析方法相比更加直观,且更加灵活,在语音分析中给予我们更多的选择余地。文在vc++平台上搭建一个语谱图分析软件,并借此分析元音与辅音的特征区别。
1.1 语谱图概述
语谱图(Spectrogam)就是语音信号之频谱图,语谱图横坐标表示时间,纵坐标表示频率,坐标点值指示语音数据的能量,以二文平面表达三文信息。鉴于语谱图在语音分析中的重要地位,它被视为可视语言。语谱图不但可以非常直观的表示出共振峰特征,还可以区分不同发音的形状,所以我们可以用图像处理的方法来完成语音信号的识别与处理。可以从语谱图中直观看到,语谱图由几条较宽的竖直条、竖直条中较深黑色的横杠、水平方向较窄的横条和一些乱纹构成。其中每一条都是一个基音,它的长短代表发该音的长短,它们之间的距离为发音间隔;深黑色的横杠代表语音的共振峰,从横杠位置的不同可以看出不同发音的共振峰是不相同的;水平横纹主在语谱图中,用于观察谐波能量。
1.2 研究意义
进步与发展是当今时代的主题。人们生活水平的日益提高带动了对高科技产品的需求,语音识别产品是顺应时代要求的高科技产品,不仅减少了一定领域的人力投入,而且可以丰富人们的日常生活。但这种产品的研发并不顺利,一直难以快速发展,以往的语音识别倾向于对对象进行直接处理,这就导致在预处理部分人们需要完成较多较复杂的操作,在我国,语音信号处理技术的理论和实践存在显著的不平衡现象,这导致难以在同类市场立足,而多角度探索是我们语音信号处理技术的一条可行途径,结合图像的语音识别技术是一种新兴技术,有利于语音识别全面的发展,在今后的研究过程中可以与相对成熟的图像处理技术相结合,为语音识别技术注入新鲜的血液,相信经过后续的研究与实践语音处理技术将会更加完善,为我们带来的更加多的便利。
1.3 研究背景
1.3.1 语音识别发展历史与现状
20世纪50年代,世界上第一个语音识别系统诞生。在计算机产业快速发展的东风带动下,这一新兴技术也得到了蓬勃的发展,在这一时期出现了一系列新的问题解决方法,这在很大程度上刺激了这一技术的进一步发展。
20 世纪 80 年代,MFCC技术和HMM模型得到了广泛的采用,这对于本行业技术的跨越式进展打下了基础,之所以这么说是因为它们在理论领域第一次十分完全及明确地描述了语音识别问题,与此对应,实践领域里也得到了较大的进步,尤其是新的算法思路的出现,使得识别效率不断提高。90年代之后,语音识别逐渐走出了实验室,与市场结合,吸引了一大批的企业和相关的研发机构,这无疑加速了该产业的发展,同时也拓宽了应用发展的思路和空间,系统从理想条件下简单的语音识别发展到可以在复杂条件下完成较高难度的任务,从而走向了更多的应用方向。
现今,随着新兴电子产品在计算机领域的大行其道,该系统的需求量与日俱增,越来越多的电子产品中整合了语音识别功能,不管是在服务性功能还是娱乐性功能,这为系统提供了又一次巨大的发展机会,比如,该系统在网络票务和网络信息查询等领域都被给予了厚望,相关的研究越来越被看重,不断推陈出新以符合日益精进的客户要求。但是即便现在的系统能够完成简单的交流任务,执行指定的命令,但是短时间里仍然不可以使语音识别系统与人在自然状态下进行实际交流,因为无论是思考的途径还是用语的个人方法过于复杂多变,所以计算机难以模仿了,达到与人类思文方式、语言习惯具有较高相似度,这是目前语音识别领域面临的重大难题,是当前仍无法克服的瓶颈,目前只能按部就班改进现有系统,一步步寻求新的突破,但我们有理由相信,等某一天克服了这一阻碍,我们的世界将极大地改变,其作用不啻于一次科技革命。 VC++语音信号的语谱图绘制与特征分析(2):http://www.751com.cn/jisuanji/lunwen_22234.html