3.1 语音识别中的HMM
在语音识别中,所谓的观察序列就是通过计算得到的一帧帧的语音参数,如MFCC参数。而状态则是在训练阶段事先预定好的不同语音单元。对于汉语普通话来说,语音单元可以是一个完整的音节,也可以是声母或韵母,还可以是更为精细的夜音素。 若图片无法显示请联系QQ752018766
3-1HMM与影印参数的关系
一个HMM模型由若干个状态组成。随着时间的变化,各个状态之间可以发生转移,也可以在一个状态内驻留。每个观察向量对不同的状态都都有相应的输出概率。如图3-1所示的HMM,包含有四个状态
3.2 HMM结构和三个基本问题
HMM模型通常采用
表3-1一个连续混合高斯HMM的基本元素综合
模型参数 |
说 明 |
N |
模型的状态数 |
A={ |
状态转移概率矩阵 |
|
各状态的起始概率公布, |
B={ |
输出概率密度函数, |
其中输出概率密度函数中参数描述如表3-2所示。
3-2输出概率密度函数中参数描述
参 数 |
说 明 |
O |
观察向量 |
M |
每个状包含的高斯元的个数 |
|
第j状态第1个混合高斯函数的权 |
N |
代表正态高斯概率密度函数 |
|
第j状态第1个混合高斯元的均值失量 |
|
第j状态第1个混合高斯元的协方差矩阵 |
权系数
这种连续混合高斯HMM通常简称为CHMM。对于每一个状态,都用若干个正态高斯概率密度函数(简称而pdf)的线性综合来表示,每个pdf有各自的均值失量和协方差矩阵,这些都是通过对大量的MFCC参数进行统计得到的。
对于HMM模型,有三个基本问题需要解决:
(1)输出概率的计算问题:给定观察序列O=(
(2)状态序列解码问题:给定观察序列O=(
(3)模型参数的估计问题:如何调整
3.3前向概率和后向概率-HMM的输出概率计算
给定观察序列O=(
HMM模型
P(q/
而这里需要的是对所有可能的状态转移序列q,模型输出观察序列O的概率P(O/
P(O/
=
该式需要进行
首先定义HMM的前向概率为[6]:
表示给定HMM模型参数
(1) 初始化
(2) 迭代计算
(3) 终止计算
P(O/
与前向概率相对应,还有后向概率。定义后向概率为:
表示给定HMM模型参数
后向概率[7]
(1) 初始化
(2)迭代计算
前向概率和后向概率的递推关系可用图3-2说明
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] ... 下一页 >>