1.2 语音合成技术发展现状
从第一个英文TTS被研制出来,已过去了50多年。得益于交互式计算机和电子通信技术欣欣向荣的发展,让计算机能够发出连续的语音已经轻而易举的了。对于语音的评价标准,也从仅仅是可以理解提高到了声音清晰、语音自然的高要求。大多数语音合成系统基本使用共振峰合成与基音同步叠加合成这两种方式,前者多用于一些小型的语音合成系统,而后者则更多地用于大型,高要求的语音合成系统。在国外,使用描述英语韵律的ToBL系统和基于数据库的合成单元选取技术是最普遍的语音合成方式。而在国内,汉语合成的突破性进展归功于汉语韵律符号标注系统C-ToBL的诞生。在此基础上,国内采用了以韵律词为合成单元的层级结构为韵律特征并使用基于数据库的选取方式成为我国语音合成方式的主流。目前,我国的汉语语音合成取得了高速的发展。已涌现出了科大讯飞、捷声华通、云知声等专业的技术公司。现在国内外对于语音合成的研究已经从仅仅清晰,自然地合成语音向流露出语言情感前进。
1.3 章节内容安排
本文除了第一章的引言外,还有其他4个章节。
第二章将讨论语音合成技术的主要合成方法与语音合成的基本结构。
第三章将介绍基于windows平台的软件开发工具。包括微软的SDK,科大讯飞的云语音SDK,捷通华声的JTTS开发包和开源软件e-speak。
第四章将介绍基于TTS技术的语音叫号系统的开发,讲解如何使用各个SDK的详细步骤和实现语音叫号系统的代码。
第五章将展示设计的叫号系统并对现在几个主流语音合成系统进行比较
2 语音合成技术的基础理论
2.1 语音合成技术的主要合成方法
通过根据对基本的语音合成单元不同的合成方式。语音合成技术的合成方式主要有3种,分别为:发音参数合成、参数分析合成、波形编码合成。[1]在这三种模型当中,发声参数合成方式是基于Fant所建立的声源-滤波器的基础上,分别用不同的数学或者物理模型来模仿声源参数,声音参数和辐射参数来达到模拟真人发音的效果。而后两种合成方式的基本思想是储存合成语音的基本单元,当需要合成文本时,通过获取语音库中的基本单元,经过一系列语言学处理,最后得到所需要的语音。
2.1.1 发音参数合成
语音合成的研究最早开始于对发声参数合成的研究。其合成的本质就是分析研究人的发声器官工作的原理,通过记录仪器来记录人在发出不同音节时候的生理参数。再通过建立不同的数学或者物理模型来表示这些参数,从而模仿人的语音。由于这是一种能够最为准确地模仿人发音过程的系统,所以从理论上而言,这是种极为精准的合成方式,但是由于现在的科研水平没有到达能够完全透彻地了解人的发音过程的生理与物理机制以及操控发音器官的神经,所以这种发音参数的合成还没有真正地被使用。
2.1.2 参数分析合成
参数分析合成的原理是把参与合成的语言单元分割成小的合成基元。然后以特定的语言学规则,通过语音信号处理提取出语音参数并把这些参数保存在语音库内。当需要进行语音合成时,把文本分成一个个合成基元,再调用语音库内的与之相匹配的语音参数,然后再根据韵律的需求,通过一定的语言规则变换,生成完整的语音信号 基于TTS的语音叫号系统设计实现(2):http://www.751com.cn/tongxin/lunwen_25704.html