语音信号采集程序设计+文献综述(3)

科学家们深入研究后认为，要解决人机语音对话这样的难题，做出真正实用的语音机器，必须开展跨学科的研究，如声学语音、语音生理学、数字信号处理、人工智能和计算机学等。要真正赋予微电脑以语言功能，必须彻底了解语言是如何产生感知，以及人类的语言通信是如何进行的。图1给出了从语言产生到语音感知全过程中的几个重要环节。从图1可以看到，要使这个问题得到满意的解决，需要深入研人类发声器官和听觉器官机理，建立能反映客观真实情况的物理模型和数学模型。
图1.1 人类语音通信过程
1.3 语音信号的特点
通过对大量语音信号的观察和分析发现，语音信号有下面两个特点
①在频域内，语音信号的频谱分量主要集中在300-3400Hz的范围内。利用这个特点，可以用一个防混叠的带通滤波器将此范围内的语音信号频率分量取出，然后按8kHz的采样率对语音信号进行采样，就可以得到离散的语音信号。
②在时域内，语音信号具有“短时性”的特点，即在总体上，语音信号的特征是随着时间而变化的，但在一段较短的时间间隔内，语音信号保持平稳。在浊音段表现出周期信号的特征，在清音段表现出随机噪声的特征。
下面是一段语音信号的时域波形图(图1.2）和频域图（图1.3），又这两个图可以看出语音信号的两个特点。

图1.2 语音信号时域波形图                图1.3 语音信号频域波形图

2 WAV音频文件
WAV为微软公司(Microsoft)开发的一种声音文件格式，它符合RIFF(Resource Interchange File Format)文件规范，用于保存Windows平台的音频信息资源，被Windows平台及其应用程序所广泛支持，该格式也支持MSADPCM，CCITT A LAW等多种压缩运算法，支持多种音频数字，取样频率和声道，标准格式化的WAV文件和CD格式一样，也是44.1K的取样频率，16位量化数字，因此在声音文件质量和CD相差无几！ WAV打开工具是WINDOWS的媒体播放器。
2.1 WAV音频文件简介
通常使用三个参数来表示声音，量化位数，取样频率和声道数。声道有单声道和立体声之分，取样频率一般有11025Hz(11kHz) ，22050Hz(22kHz)和44100Hz(44kHz) 三种，不过尽管音质出色，但在压缩后的文件体积过大！相对其他音频格式而言是一个缺点，其文件大小的计算方式为： WAV格式文件所占容量（KB) = （取样频率 X 量化位数 X 声道） X 时间 / 8 (字节= 8bit) 每一分钟WAV格式的音频文件的大小为10MB，其大小不随音量大小及清晰度的变化而变化。
2.2 WAV音频文件剖析
WAVE是录音时用的标准的WINDOWS文件格式，文件的扩展名为“WAV”，数据本身的格式为PCM或压缩型。　　
WAV文件格式是一种由微软和IBM联合开发的用于音频数字存储的标准，它采用RIFF文件格式结构，非常接近于AIFF和IFF格式。符合 RIFF(Resource Interchange File Format）规范。所有的WAV都有一个文件头，这个文件头音频流的编码参数。
偏移地址   字节数   类型   内容
00H~03H   4   字符   资源交换文件标志（RIFF）
04H~07H   4   长整数   从下个地址开始到文件尾的总字节数
08H~0BH   4   字符   WAV文件标志（WAVE）
0CH~0FH   4   字符   波形格式标志（FMT）
10H~13H   4   整数   过滤字节（一般为00000010H）语音信号采集程序设计+文献综述(3):http://www.751com.cn/jisuanji/lunwen_7559.html