音色的特征主要体现在元音的主体部分,此时语音的能量较大,谐波成分也最为丰富,所以对语音的元音部分的检测是极为重要的一个环节。
1.2 语音信号元音段简介
任何语言的语音都有元音和辅音两种音素。每个音节都是由元音和辅音组成的。元音是有声带振动所发出的声音,是音节的主干,元音在音节中占主要部分。所有的元音都是浊音,而辅音却不一定都是清音。辅音根据发声方式可以是清音也可以是浊辅音。也就是说光从浊音和清音上并不能判断出一个语音信号是否是元音,所以我们想检测出语音信号的元音段还需要依靠元音的其他性质。
元音相对与辅音还有一个性质,那就是元音的长度和能量都远大于辅音。从这点性质上来看,我们就可以清楚的区分元音和辅音了。
在本课题开发的软件的设计中,我们就利用了元音段能量强的性质,计算了语音信号的短时能量,来去除了浊音段中的辅音成分,获得了真正的元音段。
1.3 本文研究的内容和主要工作
本文介绍如何使用Microsoft Visual C++ 6.0的Win32 Application工程中的图形界面功能,基于WAV音频文件形式,设计并开发一个语音信号稳定元音段自动检测软件。主要功能有:
1.软件具有标准的用户界面,包括菜单、工具栏、对话框等,操作方便;
2.能输入WAV音频文件,读取语音数据,显示语音波形曲线;
3.能计算语音信号的短时能量及倒谱,并显示相应的曲线;
4.自动检测突出的基音周期峰值,结合短时能量排除虚假的基音周期峰值,自动标出稳定的元音段;
5.具有交互式操作功能,能对图形进行平移和放大。
1.4 本文的内容安排
第一章提出问题:我们为什么要对语音信号元音段做检测。其中包括了语音信号处理的背景和语音信号元音段的定义和性质。
第二章分析问题:我们用什么方式对语音信号元音段做检测。这一章节主要介绍本课题所设计的相关技术和开发环境,包括:WAV音频文件、短时能量、倒谱分析、Win32 Application工程。
第三章解决问题:我们如何用代码的方式实现对语音信号元音段的检测工作。这一章节主要介绍本课题开发的软件是如何设计和实现的、以及在开发软件中遇到的问题和解决的方法。
2 相关技术简介
根据本课题所给要求,我们制作的软件应该满足一下流程:先对WAV音频文件的音频数据做导入工作,其中涉及到WAV音频文件的技术。然后用倒谱对音频数据做处理,其中涉及到倒谱分析技术。接着计算音频数据的短时能量,其中涉及到短时能量技术。最后绘制波形图,其中涉及到Win32 application工程。下面介绍其中具体涉及的技术:
2.1 WAV音频文件
2.1.1 WAV音频文件格式
本课题所设计的软件是基于WAV音频文件的,它是对WAV音频文件的数据做分析处理,所以我们要先从WAV音频文件中获取我们所需的数据文件。
我们需要获得的WAV音频文件的数据有:WAV文件的总大小、WAV文件的通道数、WAV文件的采样频率、WAV文件的Byte率、WAV文件的样本位数、WAV文件数据段的大小和WAV音频数据。
WAV文件的总大小可以由C++中的文件指针来获取,也可以由WAV数据04H地址获得,它标志着整个WAV文件共有多大;WAV文件的通道数可以由WAV数据16H地址获得,一般来说,可以分为单声道(包括左声道和右声道)和双声道(立体声),在读取WAV数据时,单声道文件可以按顺序取数据块放在一个数组中,双声道文件则需要将数据块中的数据分别存放在两个数组中;WAV文件的采样频率可以由WAV数据18H获得,采样频率的倒数即为每两个采样样本之间的时间间隔,可以用于画图时的坐标数据中;WAV文件的Byte率可以由WAV数据1CH地址获得,它表示每秒WAV文件占用多大的存储空间;WAV文件的样本位数可以由WAV文件22H地址获得,它表示一个采样样本所占用的存储空间;WAV文件数据段的大小是表示总采样的音频数据的大小,它可以由WAV文件28H地址获得,存储音频数据的数组大小可以由它而定。最后从WAV文件的2CH地址开始就是真正被采样的音频数据了,音频数据占用的空间大小是不定的,它由采样点数决定。 语音信号元音段自动检测方法研究(2):http://www.751com.cn/jisuanji/lunwen_19845.html