上述三个公式分别是语音信号绝对值累加和、平方累加和以及平方的对数累加和。在计算时,可以选择其中任意一种。本文选择第二个计算式,那么,在 时刻,短时能量的计算式如下:
(7)
计算式中的 为帧长。
在MATLAB中,短时能量的命令语句为:amp=sum(abs(x),2)[7];
短时能量的曲线如下图8所示。
图8 帧长为200的语音短时能量
将录入的语音信号进行分帧,然后计算每一帧的短时能量,使其与设定的门限值相对比,就可以简单地确定语音信号的起始位置,也就是进行简单的端点检测。但是,单靠短时能量这一个指标是不可靠的。在发清音时,靠的不是人声带的震动,而是空气在口腔的摩擦和冲击。这样对其进行短时能量计算时,所算得的值较小,甚至低于设定的门限值,这样就会被认为是静音部分而被过滤掉,导致语音信号的丢失。所以引入了过零率这个重要参数。
过零率,指的是每一帧信号通过零的次数,它是对语音信号频率的一种简单的度量。若输入连续信号的正弦波,则过零率等于信号频率的两倍。对本身频率为 ,采样的频率是 的非连续信号,平均每个样本信号的过零率为 。
短时平均过零率有如下定义式[8]:
(8)
一般情况下,取 ,式中, 。
这样定义的过零率有缺点,即很容易受到低频信号的干扰。为了解决这个问题,可以对上述定义稍作修改,即不是与零相比较,而是设定一个新门限,那么,过零率,也即是一帧信号时间内,语音信号通过正负门限的次数。门限过零率如下图9所示。
图9 门限过零率
设定窗长220,帧重叠率为50%,给定一段语音,一段语音的短时平均过零次数变化曲线如图10。
图10 一段语音的短时平均过零率
图10 一段语音的短时平均过零率
2.2.4 双门限检测法
双门限检测,是一种基于短时能量(Energy)和短时过零率(ZCR)的端点检测方法,即先进行短时能量的判定,再进行过零率的判定。如图11短时能量、图12短时过零率所示,首先选取一个较高的门限值amp1,则可认为,语音的起始位置肯定位于图中AB段之外,因为大部分有效情感语音都位于此段。较低门限值amp2是根据背景噪声的平均能量确定的。在A点左方和B点右方分别找到短时能量包络与较低门限值amp2第一次相交的点C和点D。那么,图中所示的CD段即为用短时能量法判断所得的有效语音段,C和D点分别是有效语音开始和结束的起止点。这就完成了第一次的判定。
图11 短时能量
图12 短时过零率
然后用短时过零率的方法进行判定。从C点向左,D点向右分别寻找短时过零率第一次低于门限值zcr的点E和F,经过这样的双门限检测,最终得到的EF段即为所要找的有效情感语音段[9]。
经对比分析,双门限法很好地结合了短时能量和过零率的优点,提高了端点检测精确度,有效地降低了误检率。
2.3 语音情感特征的提取
语音情感特征的提取是整个语音情感识别的关键步骤,它将直接影响识别的准确度,所以要选用较好的语音特征提取方法。目前的特征参数有共振峰、过零率与峰值幅度(ZCPA)、线性预测倒谱系数(LPCC)、美尔频率倒谱系数(MFCC)、LPC系数及其派生参数等。
2.3.1 时长相关特征分析
图13 短时平均过零率 图14 无声部分与有声部分比率
- 上一篇:STC89C52单片机室内电器设备智能控制系统设计+源码+电路图+仿真图
- 下一篇:AT89C52单片机智能压力传感器系统设计+PCB线路板图+源程序
-
-
-
-
-
-
-
大众媒体对公共政策制定的影响
电站锅炉暖风器设计任务书
java+mysql车辆管理系统的设计+源代码
杂拟谷盗体内共生菌沃尔...
当代大学生慈善意识研究+文献综述
十二层带中心支撑钢结构...
河岸冲刷和泥沙淤积的监测国内外研究现状
乳业同业并购式全产业链...
中考体育项目与体育教学合理结合的研究
酸性水汽提装置总汽提塔设计+CAD图纸