Philips乐曲检索系统之特征提取算法实现(2)

附录   24

1   绪论
1.1   数字音频指纹技术的产生背景及基本概念
1.1.1   指纹技术的产生背景
音频压缩技术的进步以及大容量存储器的出现使得互联网上出现了以音乐为主的海量音频信息，手工选取某首歌曲很多时候已经变得不可能，这直接促使产生了可以进行音乐自动识别的技术的发展。由于音乐本身具有的高文度(high dimensionality)以及同一段音乐在经过信号处理后所呈现的重大的变化使音频的自动识别变成一件难事。最简单的识别方法是将完整的音频文件进行直接的数字波形比对，但这种方法效率低且通常比对结果无效；改进的方法是采用传统哈希函数，例如通过MDS 和CRC 算法，将数据转换成紧凑的表示形式，这样可以通过比对哈希函数值而不是整个文件来提高效率。但是这种传统的哈希函数非常脆弱，源数据中任意一位数据的变化都会导致输出完全不同的哈希值。可见，这种方法在抵抗压缩或去噪等常见信号处理时鲁棒性不够。因此，一个有效的音频识别系统需要满足多个条件，例如：能正确识别一段被压缩或在传输时受到信道干扰的音乐片段；能通过片段正确识别出被剪切、移位等同步攻击过的音频的完整标题；能够抵抗变调(pitching)、均衡化(equalization)、加背景噪声(background noise)；数/模一模/数转换(D/A，A/D)，MP3 等音频编码；能在不同的应用场合，进行有效的指纹提取和指纹比对等等。
为此，需要一项鲁棒的哈希函数来有效识别经过各种常规音频处理的音频片段，对同一版本不同格式的音频返回相同的哈希值。能够实现这一要求的鲁棒的哈希技术(Robust Hashing)通常被称为数字音频指纹(Digital Audio Fingerprinting)。
1.1.2   指纹技术的基本概念
数字音频指纹是指可以代表一段音乐重要声学特征的基于内容的紧致数字，签名其主要目的是建立一种有效机制来比较两个音频数据的听觉质量。这里不是直接比较通常很大的音频数据本身，而是比较其相应通常较小的数字指纹。
使用音频指纹而不是音频数据本身进行比较和检索具有以下几个方面的好处：
因为指纹数据量相对比较小，可以大大减少对硬盘及内存的存储要求。指纹来源于音频数据听觉最重要的部分，因此在经受信号失真时仍能进行有效比对。指纹数据库与媒体数据库相比尺寸减小很多，可以进行更高效的搜索。
一个有效的指纹提取算法和指纹比对算法能够在数据库中正确识别出可能经受各种信号处理失真的未知音频的原始版本。在音频识别系统中，大量音频数据的指纹和其相应的元数据如歌曲名称、词曲作者、歌词等内容一起存储在一个数据库中，并采用指纹作为相应元数据的索引。当未知音频片段被提交时，音频识别系统可提取该音频的指纹，利用数据库搜索技术，找到并返回相应元数据。随着音频识别系统逐步获得应用，将给广大音乐爱好者带来很多方便。
在音频水印的使用中也有一种技术被称为指纹，该指纹是指用于跟踪盗版源头的经过特殊设计的水印信息，通过对音像制品的每个拷贝嵌入不同的水印，在发现盗版时即可根据此水印发现盗版分发的源头。其主要理论基础是通信理论中各种具有正交性的码字设计。音频识别中使用的数字指纹是指从音频信号中提取的基于重要音频内容的紧致表示，然后用其在指纹数据库中搜索匹配信息的技术。该含义的音频指纹技术还有其它一些不同的名字，如鲁棒性比对(Robust Matching)、鲁棒/感知散列法(Robust/Perceptual Hashing)、被动水印(Passive Watermarking)、自动音乐识别(Automatic Music Recognition)、基于内容的数字签名(Content-based Digital Signatures)和基于内容的音频识别(Content-based Audio Identification)。 Philips乐曲检索系统之特征提取算法实现(2):http://www.751com.cn/jisuanji/lunwen_2880.html