AIQ |【机器学习】朴素贝叶斯 - 贝叶斯公式



转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com

AIQ 机器学习大数据 知乎专栏 点击关注

曾以为数理是这世上最绝对、最客观、最远离哲学的,慢慢地我发现其实他们是最不绝对、最不客观、最含有哲学意味儿的。这个看法改变的过程,其实是对世界深度认知的过程,在感性与理性中探索有限与无限。感触有点深,主要是最近对概率统计以及微积分的学习与研究,让我知道那些公式背后都有一些难以跨过的坎。今天不感慨,整理一下几个月前看贝叶斯公式的思路。

       之前介绍条件概率的时候,写的贝叶斯公式中只有 A 和 B,是因为我们假设在全集 U 中,只有 A、B 两个事件,基于这样一个图(这里的 AB 和上篇博客的 AB 互换了):

       在这张图中,假设黄色区域为 C,面积为 c,A、B、U 的面积分别为 a,b,u,那么,贝叶斯公式可以表示为:已知 A 的面积占 U 的百分比为 P(A),B 的面积占 U 的百分比为 P(B),C 的面积占 B 的百分比为 P(A|B),求 C 的面积占 A 的百分位 P(B|A) 是多少?我们可以利用面积自己证明一下上篇博客中的贝叶斯公式。

       实际上,U 全集中的事件远不止 A 和 B,我们假设 U 全部由多个 B 组成,从 B1 到 Bn,每个 B 都是相互独立的(朴素),这些 B 的全集会覆盖 A。图和公式如下,再来明确一下贝叶斯公式中的概念。

       P(Bi) 是先验概率,是 Bi 发生的概率,先验概率是在得到实验观测值之前对一个参数概率的主观判断,然后我们得到一个先验概率,通过不断实验对这个数据进行修正,从而得到更接近真实客观的概率值。先验概率不需要通过贝叶斯公式计算。

       P(Bi|A) 是后验概率(也叫条件概率),是在 A 发生的情况下 Bi 发生的概率,把 Bi 看做原因,A 看做结果,可以认为是在结果已经发生的情况下,求由 Bi 这一因素引起的概率多大。我看到一种更好的说法。

————————————————————————————————————————————————————

       “如果我们把事件 A 看做’结果’, 把诸事件 B1,B2…看做导致这个结果的可能的’原因’, 则可以形象地把全概率公式看做成为’由原因推结果’; 而贝叶斯公式则恰好相反, 其作用于’由结果推原因’: 现在有一个’结果’A 以发生, 在众多可能的’原因’中, 到底是哪一个导致了这结果。”

————————————————————————————————————————————————————

全概率: 由 Bi 引发 A 发生的概率的和,即 P(B1)*P(A|B1)+P(B2)*P(A|B2)+……+P(Bi)*P(A|Bi)+……P(Bn)*P(A|Bn)

于是我们得到了更一般的贝叶斯公式:

       先验概率和后验概率变成了概率分布,全概率用求和的方式表示。

      似然函数:P(A|Bi) 被叫作类条件概率,我觉得应该也是条件概率,只不过在这里条件是 A,所以不能再叫作条件概率而已。所以,这里写成了 f(A|Bi),是我们观测到的样本 A 的分布,叫作似然函数。

      B 的分布是离散的,可以用求和来求全概率。当 B 的分布是连续的时,只能通过积分来求,所以,贝叶斯公式又演变成了下面这样:

       先验概率的引入,使得当时贝叶斯统计学并不被认可,这也正是贝叶斯统计最具创造性之处。有人说,人工智能的原理,就是基于大量的数据,按照某种规律,进行大量的计算,最终总会收敛到我们想要的结果,我觉得很对。但对于从先验概率开始,通过不断的迭代与修正最终得到了后验概率,这一观点我并不认同,但又总觉得那个原理一定指导着什么。我也不太清楚先验概率的取值对所求的后验概率究竟有怎样的影响。

继续深入:

       1. 先验:如果我们有领域知识,或者猜测模型参数应该是什么,那么我们可以将它们包括在我们的模型中,这与频率方法不同,后者假设所有参数都来自数据。如果我们没有提前做出任何估计,那么我们可以使用非信息性的先验来确定正态分布等参数。

       2. 后验:执行贝叶斯线性回归的结果是基于数据和先验的可能模型参数的分布。这使我们能够量化我们对模型的不确定性:如果数据少,后验分布将更加分散。

       随着数据点数量的增加,可能性会冲刷先验,并且在无限数据的情况下,参数的输出会收敛到从 OLS 获得的值。作为分布的模型参数的表达形式包含了贝叶斯的世界观:我们从最初的估计开始,即先验,并且随着我们收集更多的证据,我们的模型变得不那么错了。贝叶斯推理是我们直觉的自然延伸。通常,我们有一个最初的假设,当我们收集支持或反驳我们想法的数据时,我们改变了我们的世界模型。其实就是我们学习或认得某个东西的过程。


更多高质资源 尽在AIQ 机器学习大数据 知乎专栏 点击关注

转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com