基于SRP-PHAT的声源定位方法研究

基于传声器阵列的声源定位是指将若干个传声器按照一定的几何结构排列，组成传声器阵列，通过阵列信号处理的方法对该阵列接收到的声源信号进行处理，根据所得数据确定出声源的几何位置。基于传声器阵列的声源定位技术在视频会议、目标定位、语音识别、声音检测及语音增强等领域有重要的应用价值。它可以以电子瞄准的方式对准声源而不需要人为地移动传声器，弥补了单个传声器在噪声处理和声源定位方面的不足，有着广阔的应用前景。本文主要对基于传声器阵列的声源定位技术领域中的基于时延的定位理论进行了研究。在时延估计算法方面，本文详细研究了广义互相关（GCC）时延估计算法，对其作详细的数学推导，论述各种加权函数的形式及性能特点。在基于可控波束方面，本文详细研究了SRP-PHAT算法，对其做详细的数学推导。最后，针对基于可控波束的声源定位方法进行了 matlab 仿真，仿真结果表明，SRP-PHAT 法具有较好的性能，可考虑在实际中使用。59686
毕业论文关键词传感器阵列声源定位时延估计广义互相关 SRP-PHAT
Title Acoustic Source Localization Based on SRP-PHAT
Abstract Acoustic source localization with microphone arrays refers to that the location of acoustic source is determined by the signal information received from several microphones arrayed with a certain geometric structure. Acoustic source localization techniques have a variety of important uses in videoconferencing, direction finding and speech enhancement. An array of microphones has a number of advantages over a single-microphone system. It may be electronically aimed to provide a high-quality signal from desired source localization and does not require physical movement to alter these microphones' direction of reception. The work presented in this thesis is based on one state-of-art framework used in acoustic source localization with microphone arrays, and acoustic source localization algorithms based on time delay estimation are illustrated. The algorithms on time delay estimation are researched., especially the theory of generalized cross-correlation method 。 Secondly, the algorithms on SRP-PHAT are researched and simulation results show it is effective.
Keywords Microphone array, Acoustic source localization, Time delayestimation, Generalized cross correlation, SRP-PHAT

1 引言… 2

1.1研究背景及意义… 2

1.2当前发展现状 3

2 时延估计方法… 9

2.1 时延估计的物理意义 9

2.2 广义互相关时延估计方法…11

3 基于可控波束形成的定位方法 18

3.1 声源定位系统模型19

3.2 混响模型20

3.3 波束形成21

3.4 可控响应22

3.5用GCC形式表示SRP… 24

3.6 联合相位变换和可控响应功率 SRP-PHAT 25

3.7 SRP 的实现…27

3.8 空间平均与时间平均…28

4 SRP-PHAT 声源定位系统仿真28

结论 34

致谢 … 35

参考文献36

1 引言 1.1 研究背景及意义视觉和听觉是人类接收外界信号的两个最主要的器官，据科学研究显示，声音占人类接收信息的 30%左右，尤为重要的是，当视觉信息的输入途径由于某种原因被截断时，如没有光亮，或目标物体被遮挡时，声音信号尤其显示出其不可替代的作用。再者，声音信息是对图像信息的一个重要的补充，因此对于声音的研究具有重大的意义。近年来，随着多媒体技术的进一步发展，语音已经成为人机交互的一个重要方式。对语音智能化的需求日益提高，在噪杂的环境下，比如，大型会议室，新闻采访，网络聊天等，我们需要对感兴趣的目标实现声音的定位和增强。随着智能化程度的提高，机器人得到了广泛的使用，人类与机器人之间，以及机器人与机器人之间通过声音定位到对方，从而执行下一步的操作，这就需要机器人能够有效且正确的识别声源的位置，并且有可能与图像信息相配合实现，从而实现智能化的操作。此外，语音识别也需要我们首先定位出感兴趣的声音，然后增强感兴趣的声音，再而识别出特定的说话人。仿生听觉系统需要解决三个问题，1）定位出声源的位置，2）从众多信号出分辨出特定声源多产生的信号，3）对分辨出的信号进行处理，定位出声源的位置并抑制响应的噪声是仿生听觉系统的前提和先觉。仅有两个方向的输入信息是很难定位声源的位置的，人类的听觉系统主要靠声波在头部和外耳廓声压差来实现声源的定位的。如果没有这种声压差，是可以定位在平面上的声源位置的，但是就会分辨不清楚声音是从前面来的，还是从后面来的。因此，从人类的听觉系统，我们得到了启发，使用多个麦克风的系统可以定位出三维空间中的声源位置，麦克风的数量越多，所接收的信息也越多。麦克风阵列信号处理是数字信号处理领域的研究热点问题，麦克风阵列接收的信息量大源]自{751·~论\文}网·www.751com.cn/ ，可以利用各阵元信号之间存在的先关性对输入数据进行融合处理以实现对待测参数的估计，这种融合处理不仅可以在时域处理，也可以在频域处理。麦克风阵列信号处理技术可以在统计学的意义上得到待测结果，该技术已经在无线通信，雷达，声纳，工业控制监控川等场合得到了广泛的应用。由此可见，声源定位与声源增强是实现智能化处理的两个关键性问题，而声源定位是实现声源增强的前提和基础。单个麦克风接收的信息量少，缺少声源定位所需要的信息，而麦克风阵列克服了上述的缺点，利用了各个麦克风信号间的相关性对数据进行融合从而可以实现声源的定位。基于SRP-PHAT的声源定位方法研究:http://www.751com.cn/tongxin/lunwen_64980.html