图6测试样本分类结果
如图6所示,“.”代表类别1的测试样本,“*”代表类别2的测试样本,绿线为决策边界。
2.4 最小风险贝叶斯分类器
在最小错误率贝叶斯分类器分类器中,仅考虑了样本属于每一类的后验概
率就做出了分类决策,而没有考虑每一种分类决策的风险[12]。事实上,在许多模式
识别问题中,即时样本属于两类的后验概率相同,将其分到每一类中所带来的风险也会有很大差异。
由于客观事物的复杂性,各种判决由贝叶斯分类器作出的风险是不一样的。例如对癌细胞的判别,这时被判为正常细胞的风险就比异常细胞的风险大。所以风险的概念就在贝叶斯分类器中被引入了[11]。根据具体情况在实际应用中将各种风险的大小决定出来,通常利用 这样一组系数来表示。 表示分类器将被识别样本分类为 ,而该样本的真正类别为 时的风险。将 分类为 的条件风险与各 的大小比较后利用后验概率计算出分类的结果是最小值对应的类别,这是最小风险贝叶斯分类器被设计的基本思想。平均风险是这种贝叶斯分类器被评价的标准,此时它的值是最小[13]。要获得在实际应用中的后验概率是非常困难的,各种分类器可根据模式类别的多少和 的取值方式被设计出来,例如模式为两类时,如果选择 和 时判别函数就为零,若选择 和 时判别函数就为1,这样两类最小错误贝叶斯分类器就被定义出。事实上,最小错误贝叶斯分类器是最小风险分类器的一种特殊情况。
样本特征 的各种概率密度函数是贝叶斯分类器被设计的关键。我们知道分布被研究得最多的是条件概率密度函数为多元正态分布[17]。这是因为在数学表达式它易于被分析,在实际应用中也是一种常见的分布形式。经常使用参数方法来设计正态分布的判别函数。
贝叶斯分类器: (19)
判别函数: (20)
(21)
2.4.1 基于最小风险的贝叶斯分类实现
实现步骤:
设待测样品如图7所示,基于最小风险的贝叶斯分类器的设计。
待测样品经过最小风险的贝叶斯分类后显示的结果与原来的样品一样,实验的结果及步骤为:
图7 待测样品
① 求出每一类手写数字样品的均值
式中, 代表 类的样品个数; 代表特征数目。
② 求协方差矩阵关于每一类的
式中, 代表样品在 类中的序号,其中 ; 代表 类的第 个样品,第 个特征值; 代表 类的 个样品第 个特征的平均值; 代表 类的第 个样品,第 个特征值; 代表 类的 个样品第 个特征的平均值。 贝叶斯分类器及其应用研究+源码+文献综述(6):http://www.751com.cn/tongxin/lunwen_1530.html