贝叶斯公式:
H表示Hypothesis(假设),E表示Evidence(证据),贝叶斯定理的意义就在于,给定一个先验概率P(H),在出现了证据E的情况下,计算后验概率P(H|E)。而P(E|H)则为当假设H为已知时,结果为证据E一致的概率。
有趣的例子一(https://liaoxuefeng.com/blogs/all/2023-08-27-bayes-explain/index.html):
已知一种疾病的发病率为0.1%。有一种检测手段测试结果准确率非常高:
- 如果有病,则准确率是99%(即有1%未检出阳性);
- 如果没有病,则误报率是2%(即有2%误报为阳性)。
现在,如果一个人测试显示阳性,请问他患病的概率是多少?
用H表示患病,E表示测试为阳性,那么,我们要计算在测试为阳性的条件下,一个人患病的概率,就是计算P(H|E)。根据贝叶斯定理,计算如下:
P(H∣E)=P(E∣H)×P(H)/P(E)
P(H)表示患病的概率,根据发病率可知,P(H)=0.1%;
P(E|H)表示在患病的情况下,测试为阳性的概率,根据“如果有病,则准确率是99%”可知,P(E|H)=99%;
P(E)表示测试为阳性的概率。这个概率就稍微复杂点,因为它是指对所有人(包含病人和健康人)进行测试,结果阳性的概率。
我们可以把检测人数放大,例如放大到10万人,对10万人进行检测,根据发病率可知:
- 有100人是病人,另外99900是健康人;(发病率为0.1%)
- 对100个病人进行测试,有99人显示阳性,另有1人未检出(阴性);(测出准确率为99%)
- 对99900个健康人进行测试,有2%=1998人显示阳性(误报),另有98%=97902人为阴性。(误报率为2%)
所以,对于10万人的样本空间来说,事件E=显示阳性的概率为(99+1998)/100000=2.097%。
带入公式:
计算结果为患病的概率为4.721%。(概率)
如果这个患者再次进行了检测,结果依然为阳性,那么他患病的概率又是多少?
我们仍然使用贝叶斯定理计算,只不过现在先验概率P(H)不再是0.1%,而是4.721%,P(E|H)和P(E|H)仍保持不变,计算新的P(H|E):
结果为71%,两次检测为阳性的结果使得先验概率从0.1%提升到4.721%再提升到71%,继续第三次检测如果为阳性则概率将提升至99.18%。
第二个例子就是广为流传的三门问题了:
一个抽奖节目,舞台上有三扇门,其中一扇门的后面有汽车,其余两扇没有,选中有汽车的那扇门就可以赢得该汽车。首先参与者从三扇门中选择一扇,接着主持人会故意打开一扇没有车的门,并询问参与者是否要更改自己的选项。请问更改选项和不更改选项哪个的中奖概率更高?
这是一个很容易犯错的问题,许多人会忽略题目中隐藏的一个重要信息——主持人事先知道哪扇门后面有车、哪扇门后面没车。主持人不会直接打开参与者选择的门(因为这样节目就直接结束了),也不会打开有车的那扇门。
定义H E两个事件:
H:参与者选择的是有车的那扇门的概率。P(H)=1/3
E:主持人打开除去参与者选择的,剩下两扇门中,其中一扇的概率。P(E) = 1/2
我们用A/B/C来表示三扇门来表示与顺序无关。
参与者选择了A门,主持人打开了B门。此时主持人问参与者要不要将选项更换为C门?
我们来计算下P(H|E)的概率,既参与者对于支持人给出的是否修改选择机会时,做出修改选择和不修改选择的不同情况中大奖的概率。
这个公式中,P(H)=1/3;P(E)=1/2。
但是,P(E|H)既主持人确定参与者选择A。因为主持人是知道车在哪扇门之后,开启B门或开启C门的概率是不一样的。
假设车子在A门之后,主持人开启B/C门的概率是一样,既P(E|H) = 1/2。既参与者不更换选择,带入公式我们得到的结果是不更换选择,中奖概率与第一次选择时的概率一致都为1/3.
P(H|E)(A)= (1/2[P((E|H)|(A))])*(1/3)/(1/2)= 1/3
假设车子在B门之后,主持人打开B门的概率为0。因为主持人知道车子在B门后,不会开启B门。
假设车子在C门之后,主持人打开B门的概率为1。此时参与者修改选择,从之前的A门换位选择C门。
P(H|E)(C)=(1[P((E|H)|(C)))*(1/3)/(1/2)= 2/3
当然这只是数学世界里纯粹的概率计算题,现实世界里是不是会遇上一个知道三门问题而“古布迷阵”的支持人也未可知。
坏心眼的“聪明人”不会放实物,而使用字条/奖卷这样的替代品,在最终开启之前“狸猫换太子”的可能性也不是没可能,你说是不是--某某彩票?
贝叶斯是一个计算概率的公式,现在被越来越多的应用在人工智能领域。这个公式有趣的地方在于,当引入了证据之后,原本难以预测的事件或者结果变的不那么“无法预测”了。
热门跟贴