基于幅度差及相位差融合的多通道声源分离技术研究(4)

2.1.3 声音信号的时域和频域分析
理论上，我们在研究了解声音信号的时候主要包含了时域波形和频域频谱两部分内容。在对信号进行时域分析以及频域分析时，通过分析信号的特征，并深入到声音信号的本质，因此这两类分析对声音信号处理时至关重要。在对语音进行处理时，时域波形是对信号最写实的描述，观察者第一步就可以观察到的数据。时域分析则是直接利用时域波形特征上的数学统计以及对基本的参数归纳及分析，同时可以处理一些语音数据，如语音的分割、预加重、加窗分帧等。这种分析方法的特点是：①协助直观地观察参数以及参数的变化、明确各参数的物理意义。②使用简单的仪器就可以对波形进行观察、操作步骤不繁琐。③可以得到信号的特征和参数。④功能较为单一。
频域分析其实就是将语音从时间域信号转换为频域信号，从而我们可以观察到一些时域上看不到的特征。在广义上来说，语音信号的倒频谱、谱密度、频谱包络分析等都是频域分析中的一部分，本文使用的是对采集信号的加窗及短时傅里叶变换（STFT）。因为如上文所说一段时间内的语音信号是一个非平稳过程，然而标准的傅里叶变换适用的范围为周期、瞬变或平稳的随机信号[3]，所以我们选择应用短时傅里叶变换（STFT）对采集到的信号进行频域分析，其频谱被称之为“短时谱 ”。这种短时傅里叶变换也是我们常用的分析特征的方法，除此之爱，还有带通滤波器组法和线件预测法等。
2.2. 麦克风阵列信号模型
我们本文中所有的麦克风阵列分离系统只适用于室内场合，室内通常分为理想和混响两种不同的模型，理想模型是指理想状况下除了目标信号之外只考虑环境噪声，混响模型是包含上述之外也将房间混响作为因素计算进来。
2.2.1．理想模型
相应的麦克风阵列在理想模型中，其接受的语音信号都被认为是直接到达麦克风，未经过房间墙壁的反射和折射。

图 2.1 理想模型下的麦克风阵列信号
我们假设由声音源发出的信号为，那么阵列中的麦克风输出的信号为：
(2-1)
其中是声波从声源传递到麦克风所经历的时间上的延迟，为背景噪声。在理想的模型中，我们认为麦克风所输出的采集信号除了目标信号外，只受到背景噪声的影响，而且因为噪声信号是随机的，目标信号和噪声信号是不相干的。
2.2.2．混响模型
声音的传播过程会受到不同原因的影响，除了直达路径之外，麦克风的声音信号到达还有多条其它路径经过不断地反射折射最终到达麦克风，像这一类的信号被麦克风接收时候相比直达路径的信号强度衰减，音质变差等问题，这种现象称为混响（Reverberation)[4]。混响的存在会给后续的信号分析以及盲源分离上带来不利的影响。消除混响的对应方法：反滤波或反卷积法，然而这种方法要求混响冲激响应是已知并且精确的，但是混响冲激响应是随时间变化的，所以这种方法是非常不容易实现的。基于幅度差及相位差融合的多通道声源分离技术研究(4):http://www.751com.cn/tongxin/lunwen_19815.html