人工智能学习笔记-贝叶斯公式

贝叶斯的理解

贝叶斯公式,就是把专门用来"根据新证据更新旧概率"的实用工具。

根据新情况,推翻或修正老看法

应用举例:

EG1

🧐 场景:你早上出门前纠结要不要带伞

旧概率(先验概率):

你早上起床拉开窗帘前,心里对"今天会不会下雨"有一个初始判断。比如你看了一下日历,现在是旱季,根据老经验,你觉得今天下雨的概率只有 20%。这就是你的"旧概率"。

新证据(似然度):

紧接着,你拉开窗帘,突然发现外面乌云密布,甚至开始刮大风了。这个"乌云密布"就是突然出现的"新证据"。

更新后的概率(后验概率):

在看到乌云的这一刻,你心里对"今天下雨"的判断绝对不会停留在 20% 了。你会立刻想:"天都黑成这样了,下雨的概率肯定飙升到了 80% 甚至更高!"

💡 这个过程,就是"用新证据更新旧概率"!

旧概率:没看窗外前,下雨概率 20%。

新证据:看到了乌云。

更新后的概率:结合乌云这个证据,下雨概率修正为 80%。

贝叶斯公式其实就是把咱们脑子里这个"看脸色行事"的直觉过程,用严谨的数学公式表达了出来:

P(下雨∣乌云)=P(乌云∣下雨)×P(下雨)/P(乌云)

P(下雨) 就是你脑子里的"旧概率"(20%)。

P(乌云|下雨) 是这个新证据的靠谱程度(如果真下雨,有多大概率会乌云密布?)。

P(下雨|乌云) 就是你看到乌云后,算出来的"更新后的概率"。
EG2

抖音、快手、B站等平台的推荐算法,底层逻辑也是贝叶斯思维。

旧概率:系统一开始根据你的年龄、性别等基础画像,猜测你可能喜欢"美妆"或"游戏"(先验概率)。

新证据:你刷视频时,在一个健身视频上停留了5秒,并且点了个赞。

更新概率:系统立刻捕捉到这个新证据,迅速调高"健身/运动"类内容的推荐权重,降低其他内容的权重。你每一次的点击、停留、划走,都是在给系统提供新证据,让它不断更新对你喜好的判断,最终给你推送的全是你爱看的内容。

贝叶斯公式的"三步走"思维

  1. 先有个老看法(先验概率):在没看到新线索前,你凭经验或常识对一件事的初始判断。
  2. 再看个新证据(新线索):突然出现了一个新的客观事实。
  3. 修正出最终看法(后验概率):结合这个新证据,把你原来的老看法进行调整,得出一个更接近真相的新结论。

场景举例(阳性测试),更加明理

🏥场景设定:体检阳性,真的得病了吗?

假设有一种比较罕见的疾病(X病),现在医学界研发出了一种检测试剂。我们需要计算的是:如果你去体检,结果显示"阳性",你到底有多大几率是真的得了这种病?

首先,我们把题目中给出的已知条件(也就是贝叶斯公式需要的"原材料")列出来:

老看法(先验概率):这种病在人群中很罕见,发病率只有 1%。

新证据的可靠性(似然度):

如果你真的得了病,试剂有 99% 的概率能测出阳性(真阳性)。

如果你没得病(健康),试剂有 5% 的概率会误报为阳性(假阳性)。

🧮 贝叶斯公式"三步走"计算

我们的目标是算出:P(得病 | 阳性)。
第一步:先有个老看法(先验概率)

在没做体检前,随便拉一个人,他得病的概率就是人群发病率。

P(得病) = 1% = 0.01

那么,P(健康) = 1 - 1% = 0.99
第二步:再看新证据(计算分子)

我们要计算"一个人真的得病,并且被测出阳性"的概率。也就是公式的分子部分:P(阳性|得病) × P(得病)。

分子 = 99% × 1% = 0.99 × 0.01 = 0.0099
第三步:修正出最终看法(计算分母与结果)

分母 P(阳性) 代表所有能测出阳性的情况。这包含两种可能:

真的得病且测出阳性(真阳性):0.01 × 0.99 = 0.0099

没得病但被误测为阳性(假阳性):0.99 × 5% = 0.0495

所以,测出阳性的总概率(分母) = 0.0099 + 0.0495 = 0.0594
最后,代入公式相除:

P(得病 | 阳性) = 分子 ÷ 分母 = 0.0099 ÷ 0.0594 ≈ 0.1667
计算结果:约为 16.7%。

💡 为什么结果这么低?(大白话复盘)

算完你可能会大吃一惊:试剂准确率高达99%,为什么测出阳性后,真正得病的概率才16.7%?

我们可以假设一个10000人 的大社区来直观理解:

老看法:因为发病率是1%,所以这10000人里,真正得病的只有 100人,健康的有 9900人。

新证据:

那100个病人去体检,99%被查出,也就是 99人 显示阳性(真阳性)。

那9900个健康人去体检,有5%被误判,也就是 9900 × 5% = 495人 显示阳性(假阳性)。

最终看法:现在医院手里一共有 99 + 495 = 594份 阳性报告。如果你随便拿起其中一份,这份报告的主人真的是病人的概率是多少?

也就是:99(真病人) ÷ 594(所有阳性者) ≈ 16.7%。

结论:贝叶斯公式告诉我们,因为健康的人群基数太大了(9900人),哪怕只有5%的误判率,产生的"假阳性"人数(495人)也远远超过了真正的病人数(99人)。

上述场景数学化

我们把体检这件事拆成两个最基本的事件:

  • 设事件 D 代表:真的得病 (Disease)
  • 设事件 T 代表:检测出阳性 (Test Positive)

题目给出的已知条件(原材料)用事件表示就是:

  1. P(D) = 0.01 (得病的基础概率是 1%)
    • 那么,P(非D) = 0.99 (没得病的概率就是 99%)
  2. P(T|D) = 0.99 (真的得病了,被测出阳性的概率是 99%)
  3. P(T|非D) = 0.05 (没得病,却被误测出阳性的概率是 5%)

我们的目标是求:P(D|T) (在检测出阳性的条件下,真的得病的概率)。

贝叶斯的分子与分母

贝叶斯公式的分子,算的就是 "新证据""原来的原因"同时发生的概率 ,在数学上叫做联合概率

分母其实就是 "所有能导致这个结果(新证据)发生的情况的总和"

结果表明新的概率,也叫后验概率,在掌握了最新线索后,这件事发生的真实可能性到底有多大。

相关推荐
CreasyChan5 个月前
unity射线与几何检测 - “与世界的交互”
算法·游戏·3d·unity·数学基础
CreasyChan5 个月前
3D游戏数学基础指南
游戏·3d·unity·数学基础
程序员老周6661 年前
4.大语言模型预备数学知识
人工智能·神经网络·线性代数·自然语言处理·大语言模型·概率论·数学基础
AI技术学长1 年前
2025年高级计算机视觉工程师路线图
人工智能·python·深度学习·机器学习·计算机视觉·数学基础·学习路线图
夜松云1 年前
机器学习中的距离度量与优化方法:从曼哈顿距离到梯度下降
人工智能·机器学习·损失函数·梯度下降·前向传播·数学基础·交叉验证
sz66cm1 年前
数学基础 --线性代数之理解矩阵乘法
数学基础
sz66cm1 年前
数学基础 -- 拉普拉斯算子的原理与应用
深度学习·机器学习·计算机视觉·数学基础
martian6651 年前
【人工智能数学基础篇】——深入详解多变量微积分:在机器学习模型中优化损失函数时应用
人工智能·机器学习·微积分·数学基础
sz66cm2 年前
数学基础 -- 均方误差(Mean Squared Error, MSE)与交叉熵(Cross-Entropy)的数学原理
数学基础·人工神经网络