基于音频特征的场景检测算法设计与实现(3)

1.3 本论文主要研究的问题和论文结构
本文讨论了一种基于音频特征的场景检测算法设计与实现。对音频特征的分类和基于这些特征对音频进行分割,本文结构安排如下：
第一章:引言。简述了音频信息处理的一般方法和意义，概述了基于音频特征的场景检测算法的设计与实现的发展历程与现状。
第二章：音频信号数字化与时频域特征分析。叙述了将模拟的音频信号转化为数字的一般步骤，并介绍了音频的时频域分析的方法。
第三章：常用音频编码格式介绍，介绍了一些常用的音频编码格式。
第四章：音频分类和场景检测，介绍了音频分类的一般方法和特征的选取，并提出如何对独立的和连续的场景进行检测的方法
第五章：音频分类原型系统的设计与实现，介绍了本算法在VC++上的实现，阐述了程序的流程图，并对实验结果分析。
2 音频信号数字化与时频域特征分析
2.1 音频信号数字化
音频信号形式多种多样，其语义可能是语音、音乐或者音效。它记录了声波的频率，幅度等信息。它是一个模拟量，如果要想对音频信号进行各种处理，首先就要对音频信号进行数字化，然后再进行特征分析。
音频信号是记录有时间和幅度，这两者都是一文连续变化的模拟信号，要把模拟信号转化成数字信号，首先要进行采样，使它在时间域上离散。由采样定理可知，要想在采样过程中不丢失信息，我们所进行采样的频率要大于最高频率的两倍，这样我们就可以用采样以后的信号来重构原来的信号。采样位数是指采集卡处理声音的解析度。一般来说采样位数越高，解析度就高，在回放时就越真实。一般16位的采样位数已能满足绝大多数的要求。而采样频率是指一秒钟对声音的采样次数，采样频率与声音的还原程度成正相关。CD的采样频率为44.1kHz，低于这个频率，人耳仔细分辨就能听出细微差别，高于这个频率人耳感觉则无异，再综合成本方面，使得这个采样频率成为CD的标准采样频率。大部分网站声音采用的都是22KHz的采样频率，而DVD则达到了192kHz的采样频率[3]。
在对信号进行采样后，由于采样后的信号虽然在时间域上是离散的，但是在幅度域上还是处于连续的状态，然后要进行量化，使得其在幅度域上也是离散的。量化器是对整个信号幅度进行离散化，把原信号按幅度分成若干个小段落。量化位数指的是每个采样点能够表示的数据范围，常用的有8位、12位、16位等，一般来说，越高的量化位数，代表着更好的音质。
一般来说量化可以分成两类：均匀量化和非均匀量化。均匀量化，顾名思义，对采样得到的幅度进行均匀划分。但是在处理语音信号时，样本的幅度一般不会太大，这样增加的样本位数就出现了浪费。这时我们就考虑另外的一种量化方式——非均匀量化，针对语音的特点，我们在低幅度内划分间隔较小，这样在人耳的敏感频率内，我们的分割会很细致，对于大幅度区间内，由于人耳对此幅度内的变化并不敏感，我们可以进行较为粗略的划分。通过对低高幅度的不同划分，我们可以在基本不损失量化质量的前提下，大大减小了样本位数，进而节约存储和计算成本。
通过采样和量化等离散化操作后，获得的信号仍然是时变的，我们分析的基础是建立在短时平稳信号上的，据此我们可以对信号进行加窗。通过窗口函数的作用，信号将被划分成无数个帧。我们可以选用的窗口函数有矩形框,汉明窗或者汉宁窗，选取不同的窗口将会会影响分帧后的特性[4]。
2.2 时域特征分析基于音频特征的场景检测算法设计与实现(3):http://www.751com.cn/zidonghua/lunwen_12853.html