平均错误率:在整个可能取值的观测值内错误率的均值
(9)
② 两类别的情况:
当 时决策为 ,对观测值 有 概率的错误率
(10)
:做出 决策的所有观测值区域,条件错误概率为
:条件错误概率为 。因此平均错误率 可表示成
(11)
在 内任一个 值都有 ,在 区内任一个 值都有 错误率在每个 值处都取小者,因而平均错误率 也必然达到最小,这就证明了按 式作出的决策,其平均错误率为最小。
也可写成: (12)
图3贝叶斯平均错误率最小示意图
1.3.1 最小错误率贝叶斯分类器
计算在 的条件下该模式属于各类的概率是把代表模式的特征向量 分到 个类别 中某一类的最基本方法,用符号 表示。比较这些条件概率,最大数值所对应的类别 就是该模式所属的类[9]。例如特征向量 被表示为某个待查细胞,它被归为正常细胞一类的概率是0.2,被归为异常细胞一类的概率是0.8,这样就将其归属于病变的细胞。上面所定义的条件概率也叫做后验概率,在一文特征向量的情况下,一般有图4中的变化关系。当 时, 对于 的区域,由于 因此 属 类,对于 的区域,由于 , 属 类, 就相当于区域的分界点。图中的阴影面积就反映了这种方法的错误分类概率,对于以任何其他的 值作为区域分界点的分类方法都对应一个更大的阴影面积,因此贝叶斯分类器是一种最小错误概率的分类器。
图4细胞的特征向量 分别属于 类和 类的概率之间的关系
2. 贝叶斯分类器的设计
2.1 贝叶斯分类器的设计原理
贝叶斯分类器的基础是贝叶斯公式:
(13)
因此,只要知道先验概率 ,类条件概率密度 ,就可以设计出一个贝叶斯分类器。而 、 并不能预先知道,需要利用训练样本集的信息去进行估计。
先验概率 不是一个分布函数,仅仅是一个值,它表达了样本空间中各个类的样本所占数量的比例。依据大数定理,当训练集中样本数量足够多且来自于样本空间的随机选取时,可以以训练集中各类样本所占的比例来估计 的值。
类条件概率密度 是以某种形式分布的概率密度函数,需要从训练集中样本特征的分布情况进行估计。估计方法可分为参数估计和非参数估计:
参数估计:参数估计先假定类条件概率密度具有某种确定的分布形式,如正态分布、二项分布,再用已经具有类别标签的训练集对概率分布的参数进行估计。
非参数估计:非参数是在不知道或者不假设类条件概率密度的分布形式的基础上,直接用样本集中所包含的信息来估计样本的概率分布情况。
2.2 贝叶斯估计
最大似然估计是把待估的参数看作确定性的未知量,而贝叶斯估计则是把待估的参数作为具有某种分布形式的随机变量,通过对第 类学习样本 的观察,使概率密度分布 转化为后验概率 ,获得参数分布的概率密度函数,再通过求取其数学期望获得参数估计值[10]。 贝叶斯分类器及其应用研究+源码+文献综述(4):http://www.751com.cn/tongxin/lunwen_1530.html