1.3.2 MIDI主旋律提取
MIDI主旋律提取,标准格式的MIDI文件一般为多音轨文件,因此对于主旋律不能够获取,总结很多相关文献,主要有基于规则、统计、最大重复模式、人工标注等几种方法,本文在仔细研读前人算法基础上,结合规则和统计两种方法,综合考虑从MIDI文件获取的特征向量,根据每个特征量对旋律的贡献度,采取16个通道中特征量最大的作为主旋律音轨,从主旋律音轨中直接读取(音高,音长)特征,构建音乐旋律特征库。
1.3.3 旋律匹配算法
旋律匹配算法,Ghias最先采用了字符串匹配方法,这种方案使用广泛,后来的许多算法都是基于字符串进行研究,如DP、BM、LCS等算法,基于音高曲线是一种几何匹配算法,形象具体,DTW、HMM算法是近期热点算法,有很多文献都围绕改善DTW、HMM算法展开研究。
1.4 关于论文的结构
论文一共由751章构成结构如图1.1所示:
(1) 第一章绪论,主要介绍了旋律检索的背景及意义。简略介绍了国内外的研究情况和旋律检索的相关技术理论。
(2) 第二章关于旋律检索相关基础知识,主要对所要用到的基本知识作了介绍,介绍了声学,音律,音频等相关知识。
(3) 第三章数据库旋律特征提取,对各种类型的音频文件做了比较,选定MIDI作为储存格式。而对于MIDI主旋律的提取,选定音高,音长两个特征来构成特征参数序列。
(4) 第四章输入旋律的特征提取,详细介绍了输入音乐旋律从声学波形文件到特征提取并构成特征参数序列的过程。
(5) 第五章旋律检索的匹配算法,在第三第四章基础上使用相应算法实现数据库和输入旋律的特征匹配从而找到想要的歌曲实现旋律的检索。
(6) 第751章结论,对本论文所做的工作做了总结,并对旋律检索需要改进的地方提出了一些自己的想法。
2 关于旋律检索的相关基础知识
2.1 音乐声学的相关知识
2.1.1 音乐声学的物理基础
声源的振动是机械振动。声波是在介质中传播的机械波。介质可以是气体,流体,固体或等离子体等,即使是电子乐器由电子振荡器作为振源,听到的还是到达耳膜的空气的振动或通过人体传达到耳朵的振动。一般声波在空气中的传播速度是大约340M/S。一般的声波都不是纯粹的正弦波,它可以分解成各种频率,振幅和相位的正弦波的叠加。我们把频率最低的叫做基频,其倍频叫做谐波或泛音。除谐波外还包括不完全是整数倍频的非谐波,现时常把非谐部分在音乐上叫做分音。人的听觉系统能够辨别的频率范围为20HZ-20KHZ。
2.1.2 音乐声学的音乐基础
音乐由音高,音长,音量和音色四个要素构成。要给具有一定音高的音定个名,这就是音名。比如英国,美国,苏联及其他世界上许多国家通用的C﹑D﹑E﹑F﹑G﹑A﹑B或中国古代的黄钟,大吕等。不同时期对不同的律制,同名音的音高是不同的。
音高的差值叫做音程,用‘度’来表示。在音乐声学上,音程还可以用频率比或音分来表示。
音程每高八度,发声体的振动频率就增高为两倍。即a1=440HZ,a2=880HZ等等。对应于实际情况,弦的长度或管的长度每缩短一半,频率就是原先的两倍。这样我们就把音程和频率比联系起来了。一个八度音程按等比数列均分成十二份,得十二律。
2.2 音频的相关知识
2.2.1 音频的特性
声音波形从长时间来看具有波形变化大周期无规律的特征。而从短时性来看具有短时平稳的特性。传统方法对音频信号分析一个重要基础就是声音信号在几十毫秒的短时间内是平稳的,如图2.1由cooledit软件观察语音信号结果。数字化音乐信号的短时分析在是短时平稳基础上将音频流分帧处理,形成特征序列参数。人类的发音是由动力源肺产生气流送至喉部,喉部对气流进行调制送至声道,经过声道对频谱整形产生发声。语音产生的声源主要分为三类:周期性、噪声以及冲击性生源,据此,语音可分为浊音与清音,浊音由周期性声门波激励产生,其他形式生源产生的语音称为清音。更确切的描述语音类型的单位是音素,它是构成语言的基本单元,这些单元按照一定的音素和文法规则连成词语,限于篇幅,本文不详细阐述各种音素模型。声道的特殊形状决定了它的共鸣特性,声道的共振频率被称为共振峰频率,而音乐信号识别要尽量避免共振的影响,获取音乐特征。 基于旋律的音乐检索系统设计与实现(3):http://www.751com.cn/tongxin/lunwen_2379.html