博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Bayes Rule (贝叶斯公式)
阅读量:6619 次
发布时间:2019-06-25

本文共 2879 字,大约阅读时间需要 9 分钟。

  hot3.png

2) 贝叶斯(Bayes)分类器

一、贝叶斯是谁?

参考地址:

    贝叶斯(约1701-1761) Thomas Bayes,英国数学家。约1701年出生于伦敦,做过神甫。1742年成为会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将法用于概率论基础理论,并创立了理论,对于统计决策函数、统计推断、统计的估算等做出了贡献。

补充说明:[1]  神父(Father),即神甫,司祭、司铎的尊称,是一个教堂的负责人。介于主教与助祭之间,属七级神品。是罗马天主教和东正教的宗教职位。千百年来只有男修士才可担当此职位。天主教拉丁礼部的神父终身不可结婚,而东正教的白衣神父可以在晋铎前结婚,但主教只能在独身者中挑选。神父除了要主持弥撒及婚礼外,为垂危者祈祷、告解、临终圣事甚至驱魔也是神父的职务。教徒们认为神父是教会内有神权的人,是他们灵魂上的父亲,可以代表天主"赦他们的罪"。神父的职权是管理本堂所辖区教徒,进行传教活动。有付"圣洗"、听"告解"、傅"终傅"、成"圣体"、祝福"婚配"之权,如受主教委托亦可"坚振",但无授予"神品"之权。

26230548_wWME.png

什么是贝叶斯推断?

贝叶斯推断与其他统计学推断方法截然不同。

它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断修正。

正是因为它的主观性太强,曾经遭到许多统计学家的诟病。

贝叶斯推断需要大量的计算,因此历史上很长一段时间,无法得到广泛应用。

只有计算机诞生以后,它才获得真正的重视。人们发现,许多统计量是无法事先进行客观判断的,而互联网时代出现的大型数据集,再加上高速运算能力,为验证这些统计量提供了方便,也为应用贝叶斯推断创造了条件,它的威力正在日益显现。

二、贝叶斯定理

要理解贝叶斯推断,必须先理解贝叶斯定理。后者实际上就是计算"条件概率"的公式。

所谓"条件概率"(Conditional probability),就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。

26230548_V270.png    26230548_YOOX.png

 

公式的推导过程:

根据上图知道: 

P(A*B) 表示 A和 B 同时发生的概率

P(A) 表示 A发生的概率

P(B) 表示 B发生的概率

原始定义: P(A*B)/P(A) 表示 在 A发生的前提下,B发生的概率,即: P(B|A)

原始定义: P(A*B)/P(B) 表示 在 B发生的前提下,A发生的概率,即: P(A|B)

___________________________

因为:

P(A|B) = P(A*B) / P(B)  

P(B|A) = P(A*B) / P(A)

所以: P(A*B) = P(A|B)*P(B) = P(B|A)*P(A) 

____________________________________________

我们把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。

P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。

P(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率。

所以,条件概率可以理解成下面的式子:

  后验概率 = 先验概率 x 调整因子

这就是贝叶斯推断的含义。我们先预估一个"先验概率",然后加入实验结果,看这个实验到底是增强还是削弱了"先验概率",由此得到更接近事实的"后验概率"。

在这里,如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大;如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性;如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小。 例如(碗和糖的故事; 可以分析概率的增强和减弱。)

   26230549_DA3Q.png

 

 

 

统计学分类

26230549_1WfB.png

 

Bayes Rule (贝叶斯公式)

Bayes Rule

贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)

现在我们可以变形得到:   P(A|B)*P(B)=P(B|A)*P(A)

那么,他们之间有什么联系呢?

例如:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的是多少?

原理通俗的解释 :(最终相等:  (狗叫+入侵 )/ 所有事件= (入侵+狗叫)/ 所有事件   )

狗叫的前提条件中  -->  入侵的概率 =  入侵/(入侵和非入侵)     (前提条件:狗叫)

入侵的前提条件中 -->   狗叫的概率 =  狗叫/(狗叫和狗不叫)     (前提条件:入侵)

 

我们围绕等式计算:

 

B表示狗叫  ,A表示入侵

P(B) 狗叫  :  狗平均每周晚上叫 3 次  = 3/7

P(A|B) 狗叫&入侵 :  ?

P(A) 入侵 : 20 年里一共发生过 2 次被盗   = 2/(20*365)    <365表示天,与等式左边对应>

P(B|A) 入侵&狗叫 : 入侵时狗叫的概率被估计为 0.9   = 0.9

 

等式的推导过程: (狗叫+入侵 )/ 所有事件= (入侵+狗叫)/ 所有事件  

                   3/7 * ? = 2/(20*365) * 0.9

                   ? =   2/(20*365) * 0.9 /(3/7)

公式推论出来勒:  P(A|B)  =  P(B|A) * P(A) /P(B)

 

理解了吗?理解了请继续看第2题,没理解的可以再看一遍第1题,看完还是不懂,再看第2题,请保持多思考!

 

2、现分别有 A,B 两个容器,在容器 A 里分别有 7 个红球和 3 个,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少?

原理通俗的解释 :(最终相等:  (红球+容器A )/ 所有事件= (容器A+红球)/ 所有事件   )

红球的前提条件中  -->  容器A的概率 =  容器A/(容器A和容器B)     (前提条件:红球)

容器A的前提条件中 -->   红球的概率 =  红球/(红球和白球)     (前提条件:容器A)

 

我们围绕等式计算:

 

B表示红球  ,A表示容器A

P(B) 红球  :  红球的概率 =  8/20

P(A|B) 红球&容器A :  ?

P(A) 容器A : 选中容器A的概率  = 10/20     (因为就容器A 10,总过 20个球,出现在A的概率是 10/20)

P(B|A) 容器A&红球 : 容器A中的红球  =  7/10

 

 

等式的推导过程: (红球+容器A )/ 所有事件= (容器A+红球)/ 所有事件    

                   8/20 * ? = 1/2 * 7/10

                   ? =   10/20 * 7/10 /(8/20)

公式推论出来勒:  P(A|B)  =  P(B|A) * P(A) /P(B)

 

转载于:https://my.oschina.net/repine/blog/283265

你可能感兴趣的文章
mysql严重查询速度的问题一则
查看>>
Windows系统中基于策略的桌面管理
查看>>
根据一位博友用(MDT+WDS部署windows xp)
查看>>
pureftp 适合企业用啊
查看>>
Red Hat Enterprise Linux6 自动挂载Windows文件系统
查看>>
FCKeditor无test上传页面二次上传
查看>>
分形树Fractal tree介绍——具体如何结合TokuDB还没有太懂,先记住其和LSM都是一样的适合写密集...
查看>>
让pt-slave-restart支持MariaDB
查看>>
Android系统应用可靠性测试-猴子测试与Monkey应用实战
查看>>
灵活运用ISA的链接转换功能:ISA2006系列之十三
查看>>
MVC:找不到请求的 .Net Framework Data Provider
查看>>
数学建模一二
查看>>
eclipse中快捷键
查看>>
iOS / OXS LeanCloud云存储方案简单测试记录
查看>>
初尝dinnernow
查看>>
linux中生成考核用的GPT分区表结构修复案例
查看>>
综合应用WPF/WCF/WF/LINQ之三十九:实现一个简单的DataGrid之获取某格的原始(或当前)行(或列)的Index...
查看>>
SharePoint Server 2013 之一:为SharePoint启航
查看>>
UpdatePanel的妙用:Incremental Content
查看>>
羊坊店不眠夜
查看>>