语音合成语音合成技术的研究到现在已经有两百多年的历史了,但随着计算机技术以及数字信号处理技术的发展,语音合成技术才得以真正用于实际生活中。最近几十年国内外的研究方向主要在于按规则文语转换,即是将书面的语 言转换成口头的语言。64286
早起的语音合成技术研究的重点在于参数合成法,比如说并联共振峰合成器和并/串联共振峰合成器。只需要仔细地调准参数,并联共振峰合成器和并/串联共振峰合成器都可以合成出具有高自然度的语音。美国Dec公司的Dectalk就是其中的代表,该系统应用了串/并联共振峰合成器,它不仅仅能够通过标准的接口实现和计算机联网,还可以单独地接到电话网上提供语音服务。它的发音清晰易懂,能够产生7种音色语音,用户可以根据自己的不同需要来进行选择。
80年代末直到现在,语音合成的技术得到了飞速的发展。随着基音同步叠 加(PSOLA)方法的提出,大大地提高了用时域波形拼接方法合成的语音的自然度和音色[3]。
90年代初,研究人员成功地开发出了基于PA0LA技术的英、德、法、日等语种的文一语换系统,相比于基于LPC方法以及共振峰合成器的文一语转换系统,这些系统的自然度明显要高得多[8]。而且,基于PSOLA方法的合成器的结构也更加简单,更容易实现,因此它有着很大的商业价值。论文网
近几年,一种基于数据库的语音合成的方法渐渐引起人们的关注,从一个预先录好的语音数据库中挑选出合成语句的语音单元,理论上讲,只要保证语音数据库足够的大,能够包括各种语境下的语音单元,就能够拼接出任何的语句。而且由于合成的语音基元都来自自然原始语音,所以合成出的语句清晰度、自然度都将非常之高。
相比于外国来说,我国的汉语语音合成技术研究的起步要晚一些,但从80年代开始就基本上能与国际研究接轨了。大致也经历过共振峰合成、LPC合成再到PSOLA技术的过程。在国家863计划、攻关计划、自然科学基金委及其中国科学院有关项目等的支持下。汉语文语转换系统的研究近年来取得了令人瞩目的进展,其中有不少成功的例子:联想佳音、中国科技大学的Kdta1k、清华大学的TH一SPEECH等系统[3]。它们基本都是应用基于PSOLA方法的时域波形的拼接技术,其合成的汉语语音的清晰度、可懂度都达到了很高的水平[3]。不过它也有它的缺点,就是合成的句子及篇章的语音机器较浓,它的自然度也还不能达到用户可以广泛接受的程度,所以使得这项技术还不能大规模的进入市场[3]。
1998年,KD-863汉语文语转换系统由中国科技大学研制成功[3]。相比于采用PSOLA技术的系统,该系统在输出语音的自然度和音质上都有较大的提高。它采用了一种基于语音数据库的语音合成的方法,其合成语音具有很高的自然度,接近于自然语音。由于KD-863文语转换系统的合成语音的高自然度与高清晰度,使得它被高度重视。被应用于为国家工商总局设计的“工商企业语音(传真)查询系统”,和为深圳华为技术公司设计的“114自动电话报号系统”。使得汉语语音合成技术终于走出了实验室,向市场应用迈出了坚实的一步。参加了在1998年4月国家科委组织的全国汉语语音合成系统的性能评测中,KD-863系统的输出语音的自然度在同类系统中占据首位,是唯一达到了用户接受程度的系统。
最近,中国科技大学推出了KD-2000汉语文语转换系统,该系统在文本预处理中,围绕层次化结构的思想,运用了大量的统计和规则的方法,完善了特殊符号处理、分词处理和拼接处理这三个处理环节。从而很大地提高了汉语文语转换系统的整体性能[3]。