1.1概述
隐马尔可夫模型HMM,即(Hidden Markov Model)是一种统计信号,是用参数表示的,用于描述随机过程统计特性的概率模型,它是由马尔可夫链演变而来的。这里所说的随机过程,在语音识别领域,一般的是有限长的随机序列。它可能是一文的观察值序列或编码符号序列,也可以是多文的失量序列。例如一个语音段(如词,音素或短语)可以用一串特征失量表示,这就是一个观察失量序列,如果将这一串失量逐个地进行失量量化,每一个失量用一个编码符号代表,就变为观察符号序列了。隐马尔可夫模型是一种既能描述语音信号的动态变化,又能很好的描述语音特征统计分布的统计模型,是准平稳时变语音信号分析和识别的有力工具。
大约90年前,人们就已经知道了马尔可夫链了,有关HMM的基本理论在20世纪60年代末70年代初提出并加以研究;它在年代初提出并加以研究;它在语音处理中的应用和实现的研究工作,在70年代中开展起来;然而,对它的理论的广泛和深入的了解,它在语音处理中得到成功应用,还是最近一二十年的事。将此模型用来描述语音信号的产生是80年代语音信号处理技术是一项重大进展,用此解决语音识别问题已取得了很大的成果。其基本理论和各种实用手法是现代语音识别的重要基石。
假设有一个实际的物理工程,产生了一个可观察的序列。在这种情况下,建立一个模型来描述这个序列的特征是非常重要的。因为,如果能用一个模型描述该信号,那么也就有可能去识别它。如果在分析的区间内,信号是非时变或平稳的,那么使用人们所熟知的线性模型描述就可以了。例如,语音信号在短时(10~30ms)内被认为是平稳的,因而可以用一个全极点模型或极零点模型来模拟它,这就是线性预测模型。此外,还有短时谱,倒谱等也都属于线性模型,这些都是人们研究得相当透彻的模型技术。
如果在分析时区间内信号是时变的,显然上述线性模型的参数也是时变的。所以,最简单的方法是:在极短的时间内用线性模型参数表示;然后再将许多线性模型在时间上串接起来。这就是马尔可夫链。但是,除非已经知道信号的时变规律,否则,就存在一个问题:如何确定多长的时间模型就必须变换:显然,不可能准确的确定这个时长,或者不可能做到的变化与信号的变化同步,所以马尔可夫链虽然可以描述时变信号,但不是最佳和最有效的。
HMM与通常的马尔可夫链的不同之处在于其观察结果不是与状态有确定的对应关系,而是系统所处状态的概率函数,所以模型本身是隐藏的,它与观察结果之间还有一层随机的关系。
而隐马尔可夫模型既解决了用短时模型描述平稳段的信号,又解决了每一个短时平稳段是如何转变到下一短时平稳段的问题。它利用概率及统计学理论成功地解决了如何辨识有不同参数的短时平稳的信号段以及如何跟踪它们之间的转化等问题。语言的结构信息是多层次的,出了语音特性外,还牵涉到音长,音调,能量等超音段信息以及语法,句法等高层次语言结构的信息。而HMM既可以描述瞬变的(随机过程)。又可描述动态的(随机过程的转移)特性,所以它能利用这些超音段和语言结构的信息。
采用隐马尔可夫模型了描述语音过程的成功原因在于:
(1)各状态驻留的时间是可变的,这样就很好的解决了语音时变问题。
(2)模型参数是通过大量的训练数据进行统计运算而得到的,由此不仅可以用于特定人识别,而且可用于非特定人识别,这时,只要将大量不同人的多次发音用作训练数据即可。
对HMM模型的研究已经相当深入,从离散模型到连续模型,用一重高斯分布到多重高斯分布来描述概率统计分布,状态驻留 统计独立成为一个附加模型。另外,对于语音参数还进行了扩展,加进导出参数。所有这些都是为了提高识别率。
目前绝大多数比较成功的语音识别系统都是基于隐马尔可夫模型的,特别是在连续语音识别领域,HMM是声学部分的主流方法。
1.2 隐马尔可夫模型的引入
信号是一种物理过程,可以是离散的:如有限字母表中的字母,码书中的码字等;也可以是连续的,如语音的取样,音乐等。信号可以是平稳的,即统计特性不随时间变化;也可以是非平稳的,即信号的性质随时间而变化。
利用信号模型来描述实际信号是一个很基本很重要的问题。因为:(1)信号模型是从理论上描述信号处理系统的基础;(2)根据信号模型,能够不需要有信号源而了解信号源的许多性质;(3)利用信号模型可以实现许多重要系统,如预测系统,识别系统等。
信号模型可以粗略地分为确定模型和统计模型两类。确定模型要利用信号的特定性质,例如已知信号是正弦函数。此时,信号模型的确定较简单,即估计信号模型参数的数值,如正弦波的振幅,频率和相位等。统计模型的基本假定是:信号可以用一个参数随机过程很好地加以描述,而且确定性的模型描述,也可以用统计模型描述。
HMM使用马尔可夫链来模拟信号的统计特性的变化,而这种变化又是间接的通过观察序列来描述的。它是一个双重的随机过程。语音信号本身是一个观察的序列;它是由大脑中的(不可观察的),根据语言需要和语法知识(状态选择)所发出的音素(词,句)的参数流,所以语音信号的精确模型必须用隐马尔可夫模型来描述。
1-1马尔可夫过程状态图。箭头表示状态之间允许转移,箭头的数字表示转移概率
其中每一个状态都用一个圆圈表示,而状态之间的转移用箭头表示。状态之间转移是随机的,每一状态下的输出也是随机的。由于允许随机转移和随机输出,使模型能适应发音的各种变化。
采用这种模型的目的不像其他语音处理技术那样明星。如声道的结构,发音器官的不同部位以及与每一个发音部位相应的语音输出等,都是容易理解的。而隐马尔可夫模型并不要求这种对应关系,也不企图确定发音器官姿态与模型状态之间有什么对应关系。
由于任一个状态的转移概率都必须为1,所以A矩阵的每一行相加都等于1。规定转移是不确定的,使之能够处理状态的删除或重复等问题。模型的这种性质是必要的,因为每个单词的发音变化都很大。最后,允许系统不只有一个初始状态。
如果可能输出的M个休会(或字母)为{
此系统在任何时刻所处的状态
因假定模型具有有限个离散输出,即
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] ... 下一页 >>