语音信号元音段自动检测方法研究(2)

音色的特征主要体现在元音的主体部分，此时语音的能量较大，谐波成分也最为丰富，所以对语音的元音部分的检测是极为重要的一个环节。
1.2 语音信号元音段简介
任何语言的语音都有元音和辅音两种音素。每个音节都是由元音和辅音组成的。元音是有声带振动所发出的声音，是音节的主干，元音在音节中占主要部分。所有的元音都是浊音，而辅音却不一定都是清音。辅音根据发声方式可以是清音也可以是浊辅音。也就是说光从浊音和清音上并不能判断出一个语音信号是否是元音，所以我们想检测出语音信号的元音段还需要依靠元音的其他性质。
元音相对与辅音还有一个性质，那就是元音的长度和能量都远大于辅音。从这点性质上来看，我们就可以清楚的区分元音和辅音了。
在本课题开发的软件的设计中，我们就利用了元音段能量强的性质，计算了语音信号的短时能量，来去除了浊音段中的辅音成分，获得了真正的元音段。

1.3 本文研究的内容和主要工作
本文介绍如何使用Microsoft Visual C++ 6.0的Win32 Application工程中的图形界面功能，基于WAV音频文件形式，设计并开发一个语音信号稳定元音段自动检测软件。主要功能有：
1.软件具有标准的用户界面，包括菜单、工具栏、对话框等，操作方便；
2.能输入WAV音频文件，读取语音数据，显示语音波形曲线；
3.能计算语音信号的短时能量及倒谱，并显示相应的曲线；
4.自动检测突出的基音周期峰值，结合短时能量排除虚假的基音周期峰值，自动标出稳定的元音段；
5.具有交互式操作功能，能对图形进行平移和放大。
1.4 本文的内容安排
第一章提出问题：我们为什么要对语音信号元音段做检测。其中包括了语音信号处理的背景和语音信号元音段的定义和性质。
第二章分析问题：我们用什么方式对语音信号元音段做检测。这一章节主要介绍本课题所设计的相关技术和开发环境，包括：WAV音频文件、短时能量、倒谱分析、Win32 Application工程。
第三章解决问题：我们如何用代码的方式实现对语音信号元音段的检测工作。这一章节主要介绍本课题开发的软件是如何设计和实现的、以及在开发软件中遇到的问题和解决的方法。
2 相关技术简介
根据本课题所给要求，我们制作的软件应该满足一下流程：先对WAV音频文件的音频数据做导入工作，其中涉及到WAV音频文件的技术。然后用倒谱对音频数据做处理，其中涉及到倒谱分析技术。接着计算音频数据的短时能量，其中涉及到短时能量技术。最后绘制波形图，其中涉及到Win32 application工程。下面介绍其中具体涉及的技术：
2.1 WAV音频文件
2.1.1 WAV音频文件格式
本课题所设计的软件是基于WAV音频文件的，它是对WAV音频文件的数据做分析处理，所以我们要先从WAV音频文件中获取我们所需的数据文件。
我们需要获得的WAV音频文件的数据有：WAV文件的总大小、WAV文件的通道数、WAV文件的采样频率、WAV文件的Byte率、WAV文件的样本位数、WAV文件数据段的大小和WAV音频数据。
WAV文件的总大小可以由C++中的文件指针来获取，也可以由WAV数据04H地址获得，它标志着整个WAV文件共有多大；WAV文件的通道数可以由WAV数据16H地址获得，一般来说，可以分为单声道（包括左声道和右声道）和双声道（立体声），在读取WAV数据时，单声道文件可以按顺序取数据块放在一个数组中，双声道文件则需要将数据块中的数据分别存放在两个数组中；WAV文件的采样频率可以由WAV数据18H获得，采样频率的倒数即为每两个采样样本之间的时间间隔，可以用于画图时的坐标数据中；WAV文件的Byte率可以由WAV数据1CH地址获得，它表示每秒WAV文件占用多大的存储空间；WAV文件的样本位数可以由WAV文件22H地址获得，它表示一个采样样本所占用的存储空间；WAV文件数据段的大小是表示总采样的音频数据的大小，它可以由WAV文件28H地址获得，存储音频数据的数组大小可以由它而定。最后从WAV文件的2CH地址开始就是真正被采样的音频数据了，音频数据占用的空间大小是不定的，它由采样点数决定。语音信号元音段自动检测方法研究(2):http://www.751com.cn/jisuanji/lunwen_19845.html