Bayes定理及其思想总结
摘要:
贝叶斯是基于概率的一种算法,是Thomas Bayes:一位伟大的数学大师所创建的,目前此种算法用于过滤垃圾邮件得到了广泛地好评。
贝叶斯决策是决策者经常使用的一种决策方法,具有严谨的思路
关键词:贝叶斯定理;贝叶斯决策
引言:
在概率计算中,我们常常遇到这样的一类问题,某事件的发生可能依赖于多种原因,对这样的事件直接求规律往往是无能为力的。
概率与我们的生存、生活是密不可分的,在我们的生活中要想使我们的期望效用最大化,我们必须考虑各种客观条件的存在,用理性的科学的思文去判断问题、分析问题,最终做出正确的决策。
贝叶斯定理
贝叶斯定理(Bayes theorem),是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。
作为一个规范的原理,贝叶斯定理对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法: 频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯定理。
贝叶斯定理的陈述
贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。
其中L(A|B)是在B发生的情况下A发生的可能性。
在贝叶斯定理中,每个名词都有约定俗成的名称:
• Pr(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。
• Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
• Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
• Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant).
按这些术语,Bayes定理可表述为:
后验概率 = (相似度 * 先验概率)/标准化常量
也就是说,后验概率与先验概率和相似度的乘积成正比。
另外,比例Pr(B|A)/Pr(B)也有时被称作标准相似度(standardised likelihood),Bayes定理可表述为:
后验概率 = 标准相似度 * 先验概率
贝叶斯决策
贝叶斯决策就是利用补充信息,根据概率计算中的贝叶斯公式来估计后验概率,并在此基础上对备选方案进行评价和选择的一种决策方法。
企业重要的经营决策大多是在不确定的情况下进行的,具有一定的风险性,决策的科学性及稳定性在很大程度上依赖于对未来决策所涉及各自然状态的把握程度。风险决策时方案选择决定于外界环境状态,而这种状态是无法确知的,更不受决策者控制,但通过判断、调查和实验,可以获得有关信息,贝叶斯决策理论为此提供了科学的方法。
贝叶斯决策理论
设A1,A2,…An为一完备事件组,事件B仅在完备事件组中某一事件发生时才发生,而且P(B)>0,在事件B出现的条件下,事件Ai出现的条件概率用P(Ai/B)表示,则由如下贝斯公式求出P(Ai/B),
P(Ai/B)=P(Ai)P(B/Ai)P(B)
上式中P(B/Ai)表示在事件Ai发生的条件下B发生的条件概率,P(B)是事件B发生的全概率,即:
P(B)=∑ni=1P(Ai)P(B/Ai)
对贝叶斯决策,我们先进行先验分析,也就是详尽列出决策矩阵或决策树,对各种状态发生的概率和条件结果都要加以估计或测算,但如果我们有可能进一步收集信息,就有可能使决策进行得更有把握一些。
几种常用的决策规则
1.基于最小错误率的贝叶斯决策
在模式分类问题中,人们往往希望尽量减小分类的错误,从这样的要求出发,利用贝叶斯公式,就能得出使错误为最小的分类规则,称之为基于最小错误率的贝叶斯决策。决策规则(以两类为例):如果p(w1|x)>p(w2|x),则把x归为w1类。反之,p(w1|x)<p(w2|x),则把x归为w2类。在多类情况下的决策规则为p(wi|x)=maxp(wj|x)j=1,2..c,则x∈wi
2.基于最小风险的贝叶斯决策
在基于最小错误率的贝叶斯分类决策中,使错误率p(e)达到最小是重要的。但实际上有时需要考虑一个比错误率更为重要的广泛的概念———风险。风险和损失是紧密联系的。最小风险贝叶斯决策正是考虑各种错误造成损失不同而提出的一种决策规则。在此决策中利用了决策论的观点进行考虑。在已知先验概率p(wi)及类条件概率密度p(x|wi)i=1,2..c的条件下,在考虑错判所造成的损失时,由于引入“损失”的概念,而必须考虑所采取的决策是否使损失最小。对于给定的x,如果采取决策αi,损失函数λ(αi,wj)可以在c个λ(αi,wj),j=1,2,...c值中任取一个,其相应的概率为p(wj|x).因此在采取决策αi情况下的条件期望损失R(αi|x)(即条件风险)为R(αi|x)=E[λ(αi,wj)]=Σcj=1 λ(αi,wj)p(wj|x) i=1,2,...α 条件风险反映了对某一个x取值采取决策αi所带来的风险。
由于x是随机向量的观察值,对于x的不同观察值,采取决策αi时,其条件风险的大小是不同的。所以将决策α可以看作随机向量x的函数,记为α(x),所以我们定义期望风险为R=∫R(α(x)|x)p(x)dx。期望风险反映了对整个特征空间上所有x的值所采取相应的决策α(x)所带来的平均风险。最小风险贝叶斯决策规则为如果R(αk|x)= m i n i=1,2..αR(αi|x),则α=αk
3.限定一类错误率条件下使另一类错误率为最小的两类决策
在两类别决策问题中,有犯两种错误的可能性,一种是在采取决策w1时其实际自然状态为w2;另一种是在采取决策w2时其实际自然状态为w1,这两种错误的概率分别是p(w2)•p2(e)和p(w1)•P1(e),最小错误率贝叶斯决策是使这两种错误率之和p(e)为最小。由于先验概率对具体问题来说往往是确定的,所以一般称P1(e),P2(e)为两类错误率。实际中,有时要求限制其中某一类错误率不得大于某个常数而使另一类错误率尽可能的小。这样的决策可以看成在P2(e)=ε0条件下,求P1(e)极小值的条件极值问题。可以用条件极值的Lagrange乘子法。建立的数学模型为γ=P1(e)+λ(P2(e)-ε0)其中λ是Lagrange乘子,目的是求γ的极小值。当求的最佳的λ及两类决策的分界面t时能使γ极小,此时的决策规则为:
如果λp(x|w2)><p(x|w1),则x属于w1w2
4.最小最大决策
从最小错误率和最小风险贝叶斯决策中可以看出其决策都是与先验概率p(wi)有关的。如果给定的x,其p(wi)不
变,按照贝叶斯决策规则,可以使错误率和风险最小。但是如果p(wi)是可变的,或事先对先验概率毫不知道的情况下,
若再按某个固定的p(wi)条件下的决策进行就往往得不到最小错误率或最小风险。而最小最大决策就是考虑在p(wi)变
化的情况下,如何使最大可能的风险为最小,也就是在最差的条件下争取到最好的结果。
对于两类问题假设损失函数为
λ11———当x∈w1时决策为x∈w1;λ21--当x∈w1时决策为x∈w2;
λ22———当x∈w2时决策为x∈w2;λ12--当x∈w1时决策为x∈w2;
通常作出错误决策比作出正确决策所带来的损失要大,即λ21>λ11及λ12>λ22。
再假定决策域 和 已经确定,则风险R可按公式得出
R=∫R(α(x)|x)p(x)dx=∫ R(α1|x)p(x)dx+∫ R(α2|x)p(x)dx=∫ [λ11p(w1)p(x|w1)dx+λ12p(w2)p(x|w2)]dx
+∫ [λ21p(w1)p(x|w1)+λ22p(w2)p(x|w2)]dx
我们的目的是分析风险R与先验概率p(w1)之间的关系。最小最大决策的任务就是寻找贝叶斯183