音乐检索技术国内外研究现状和发展趋势

目前主流的基音检测技术主要包括时域的自相关法、频域的倒谱法、时频结合的小波变换分析方法以及在其基础上的衍生算法，它们都在某一方面具有显著优点．其共同的处理办法是对一查询片段进行加窗分帧，并且重叠移动形成多帧，然后对每帧数据作基音提取操作，最终得到代表音调变化的基音序列．自相关函数是对信号进行短时相关分析时常用到的特征函数．人声哼唱信号s（m），经窗长为N 的窗口，截取为加窗帧信号Sn （m），定义每帧的自相关函数为10740
Rn （k）＝ΣN －k －１
m ＝０
Sn （m）Sn （m ＋k）（１）
式中－N ＋１＜k ＜N －１．由于信号的自相关函数在基音周期的整数倍位置上会出现峰值，因此可通过
检测峰值的位置来提取基音周期值．、提出了一种对自相关算法（ＡＣＦ）改进的ＹＩＮ算法，通过建立区别函数、设定绝对阈值、估计局部最优等步骤，实现对基音的准确提取．本文以该算法为基础，对其进行修改，使之对人声信号更具针对性，主要包括静音区检测、停顿区判断、音高归一化处理等．完成基音提取后，获得了较好的基音曲线，如图２（ａ）所示．该曲线的轮廓真实展示了哼唱片断中的音高变化状况．然而，人的声门发音毕竟不像钢琴，在固定音符表现上，波形并不能保持稳定，小幅跳变仍比较明显，这是人在哼唱／歌唱时的真实信息，要实现与标准音乐旋律变化的比对，需对基音序列进行后处理．由于数音频产业的飞速发展，对海量的无标注信息的数字音频如何进行有效的检索，渐渐成为下一代搜索引擎关注的技术热点之一。自从二十世纪九十年代以来，在基于内容的音乐检索方面的研究开始有了长足的发展和进步。提出了具有较好抗噪性能的基于哼唱的MIDI音乐检索系统。此外，我们采用两种不同的音乐特征提取方法对基于哼唱的MP3音乐检索进行了初步研究。在我们提出的基于哼唱的MDII音乐检索系统中，噪声鲁棒性是衡量检索系统性能的一个重要指标，我们着重在哼唱信号的特征提取过程中尽量减小环境噪声对哼唱系统的影响。在哼唱信号的音高检测处理中，通过检测对信号自相关函数峰值对应时间轴位置的两倍与三倍时间处的自相关值，改进了自相关函数法检测音高的算法，降低了由噪声信号引起的音高检测错误。音高检测之后的有/无人声检测器大大地减低了无人声段给检索匹配带来的冗余与干扰信息。由于哼唱信号中的音高是基于帧结构提取的，而MIDI音乐中的音高是基于音符的，所以我们采用帧级对音符级。在哼唱音乐检索中，最前端的工作就是对哼唱声音信号进行处理，以获取旋律信息，并将旋律信息表示成一种合理的中间格式，可以直接或变换后用于不同的音乐检索系统，进行查询构造。所以，旋律信息的获取是哼唱音乐检索中的关键工作。对哼唱声音信号的处理和旋律信息提取的方法可以采用一般对语音信号分析处理的方法，但又有所不同：语音信号处理针对目的的不同，处理的重点与具体采用的方法也不同。哼唱声音信号的分析和处理主要分为时域分析、频域分析、倒频域分析等。其中，时域分析方法具有简单、计算量小、物理意义明确等优点。其次，采用时域的方法也有利于将来把哼唱检索系统应用的嵌入式系统中。哼唱音乐检索技术最早提出于20世纪90年代，主要研究如何提取音频信息中的语义信息，以方便对音频数据进行检索。目前在基于内容的音频检索中，主要完成音频特征提取与音频分类两个任务。如John Saunderstl0J基于能量分布曲线和过零率特征，对商业电台广播内容进行分类，正确率达98％；MIT媒体实验室的EricScheirer等用13种特征的组合来区分语音和音乐，包括4Hz调制能量、频谱能量截止点、频谱中心和频谱流量等；在较小范围、较短实验音频片段上，用基于MMI向量量化法得到音频统计特性，然后构造分类器，对语音及音乐取得了较好识别率；提取环境音频例子(如爆炸、枪声和掌声等)中短时能量、过零率和基本频率能量比等特征，为每类环境背景音频训练一个隐马尔可夫链，在小样本情况下，取得了90％左右检索正确率；提取音频片段统计特征，使用含有语义状态的隐马尔可夫链实现广播新闻粗略／精细分割分类。上述研究领域主要完成了音频信息的分类，但基于内容的音乐检索系统的研究还不充分。目前，国内处于领先地位的是中科院声学所中科信利语音实验室，其在国际音乐处理学术界举办的最高赛事(MIREX)中，获得哼唱检索评测中获得很好的成绩。目前，基于哼唱的音乐检索系统要要解决的问题重要问题是如何对多类不同音频构造一个鲁棒的识别机制。哼唱音乐一般是一种波形文件，这样的格式并不利于检索和查找。在使用哼唱音乐检索音乐内容时，需要将哼唱文件转换为音高和时值的形式，作为检索关键字。这些步骤都建立在哼唱已经被按音符切分的基础上。论文采用一种基于振幅能量的多层次音符切分方法，实现对哼唱文件的快速切分。基于能量的划分方法具有简便快速的特点。分层次的划分方法能够针对各种不同音符情况，采用最合适的方法切分。论文还讨论了一种基于音高识别技术的音符划分方法从２０世纪９０年代中期至今，国内外已有多家机构对基于内容的音乐检索进行了研究，分别提出了不同的查询方式、建库方式及旋律表示、匹配方式等，在该体系中，采用哼唱的形式进行查询被广为研究．１９９５年，对单音轨的迷笛（ＭＩＤＩ）音乐的哼唱检索进行了开创性研究，采用时域自相关算法提取音高信息，然后使用字符串近似匹配的方式实现对单声部音乐的检索．新西兰Ｗａｉｋａｔｏ大学的ＲｏｄｇｅｒＪ．ＭｃＮａｂ与新西兰数字音乐图书馆合作开发了名为ＭｅｌｏｄｙＴｒａｎｓｃｒｉｐｔ（ＭＴ）和ＭＥＬＤＥＸ系统；但是ＭＥＬＤＥＸ系统无法正确切割音符，哼唱时，必须在音符与音符之间自行留下短暂的停顿或插入特定断句声音，使用起来不方便，也不自然．提出同时使用音长和音高作为旋律特征，然后采用基于动态闭值调整的匹配方法，采用了先粗选后细选的匹配策略．提出同时使用音高变化和音高分布来提高系统的性能，并开发出了名为ＳｏｕｎｄＣｏｍＰａｓｓ的系统，在使用时需配合乐器的节拍哼唱．改进基音提取算法，在传统检索算法的基础上增加了访问频度索引功能，采用基于遗传算法的相关反馈机制，使算法的检索正确率有了一定提升．另外，采用流媒体技术实现网络实时检索也有相关成果．台湾清华大学的ＪａｎｇＪＳＲ等在哼唱式音乐检索方面起步较早，他们在提取基音值之后，采用分级过滤算法对音高进行处理，首先排除一部分候选音乐，然后采用动态时间归整（ＤＴＷ）算法进行精确匹配，并开发出名为ＳｕｐｅｒＭＢｏｘ的点歌系统．以上研究所述及的先粗选后细选、访问频度索引、相关反馈及分级过滤等算法，均是在确定了核心检索功能后施加的一种提高准确率的优化方法。基于传统音乐检索系统架构提出一系列新的处理办法．首先采用一种新近在国际上出现的ＹＩＮ算法进行改进，实现对输入的哼唱片断进行分析，能更准确地提取哼唱片断中频率高低变化的基音序列，提出一种新颖的“小阁”后处理方法，使基音序列经过滤波后能在保持原有变化轮廓的基础上滤除微小跳变，强化主体跳变，使波形更加规整；然后提出一种将音高音长信息按跳变规律进行分析的旋律轮廓标记方法，形成能与数据库中特征进行匹配的字符序列；最后以一种有限长度最长公共子序列双重匹配方法为基础，提出实现相似度衡量的体系．综合以上算法实现了一个哼唱／歌唱检索的原型系统，经过实验，该处理流程对于实现基于内容音乐检索是正确、有效的，通过与传统解决方案中各个环节技术的比较表明，本文算法能获得更高的检索准确率。音乐检索技术国内外研究现状和发展趋势:http://www.751com.cn/yanjiu/lunwen_9875.html