ML 系列：第 18 部 - 高级概率论：条件概率、随机变量和概率分布

文章目录

一、说明
二、关于条件概率
- [2.1 为什么我们说条件概率？](#2.1 为什么我们说条件概率？)
- [2.2 为什么条件概率在统计学中很重要](#2.2 为什么条件概率在统计学中很重要)
[三、随机变量的定义](#三、随机变量的定义)
- [3.1 定义](#3.1 定义)
- [3.2 条件概率中的随机变量](#3.2 条件概率中的随机变量)
四、概率分布的定义
五、结论

一、说明

条件概率是极其重要的概率概念，它是因果关系的数学表述，也是随机过程的主要核心内容。本文将就条件概率的相关概念进行叙述。

二、关于条件概率

碳条件概率是假设另一事件已经发生，则某事件发生的概率。当两个或多个事件不独立时，使用条件概率。这意味着一个事件发生的可能性受到另一个事件是否发生的影响。

从数学上讲，条件概率用𝑃(𝐵∣𝐴) 表示，即"在事件 A 发生的情况下，事件 B 发生的概率"。它问道："如果我们知道 A 已经发生，那么 B 发生的概率是多少？"

图 1.条件概率公式

2.1 为什么我们说条件概率？

我们使用"条件概率"一词，因为它表示在另一事件已经发生的条件下发生某事件的概率。换句话说，它量化了在我们有关于另一事件发生的额外信息的情况下发生某事件的可能性。

图 2.条件概率项

2.2 为什么条件概率在统计学中很重要

条件概率在统计学中至关重要，因为它可以帮助我们根据已知的信息调整预测。当我们已经知道事件 A 已经发生时，它告诉我们事件 B 发生的可能性。

三、随机变量的定义

3.1 定义

随机变量是将实数与事件相关联的函数。这意味着为每个可能的结果分配一个值（一个实数）。用更数学的术语来说，它是从样本空间 Ω 到实数的函数。我们可以根据需要选择随机变量。

图 3.随机变量

3.2 条件概率中的随机变量

它为随机实验的样本空间中的每个结果分配一个数值，从而更容易处理和分析这些结果的概率属性。

图 4.硬币的随机变量如果硬币正面朝上，则随机变量 X 的值为 1；如果硬币反面朝上，则随机变量 X 的值为 0。在一次抛硬币中，出现这两种情况的概率均为 50%。X（在本例中为 1 和 0）可以取的值称为样本空间，可以表示为 {0, 1}。

处理随机变量时，我们经常使用符号𝑃(𝐵=𝑏∣𝐴=𝑎)。

每个部分的含义如下：

𝐴 和 𝐵 是随机变量,a和b是这些随机变量可以取的特定值。𝑃(𝐵=𝑏∣𝐴=𝑎) 的含义:

该符号表示在随机变量 𝐴 取值a的情况下，随机变量 𝐵 取值b的概率。简单来说，它描述了了解 𝐴 的结果如何影响 𝐵 结果的可能性。

例子

假设某人掷出两个公平的六面骰子，并且我们希望计算第一个骰子的正面值为 2 的概率，前提是它们的总和不大于 5。

令D 1 为骰子 1 掷出的值。

令D 2 为骰子 2 掷出的值。

D 1 = 2的概率

图 5. D 1 = 2的概率

表 1 显示了两个骰子掷出的 36 种组合的样本空间，每种组合出现的概率为 1/36，红色和深灰色单元格中显示的数字为D 1 + D 2 (D = D1+D2 = 36)。注意：表 1 中的每个单元格代表 D1 和 D2（两个骰子的结果）的总和

在 36 个结果中，恰好有 6 个结果为D 1 = 2；因此P ( D 1 = 2) = 6/36 = 1/6

D 1 + D 2 ≤5的概率

图 6. D 1 + D 2 ≤5的概率

我们有 36 种结果，但只有 10 种可能性小于 5，换句话说，结果是 10 / 36

假设D 1 + D 2 ≤ 5 ，则D 1 = 2的概率

这是一个有趣的例子，在这个例子中，条件概率发挥了作用。

图 7.假设D 1 + D 2 ≤ 5 ，则D 1 = 2的概率

表 3 显示，对于这 10 个结果中的 3 个（D 1+ D 2 ≤5），D 1 = 2。因此，条件概率 P( D 1 = 2 | D 1+ D 2 ≤5) = 3/10 = 0.3

让我们尝试了解其背后的数学原理：

B：D1=2

答：D1 + D2≤5

P( B | A ) = P(B∩A)/P(A) = (3/36)/(10/36) = 3/10是多少

所以我们可以说P( B | A ) = P(B ∩ A) / P(A)；如果 P(A) ≠0

探索不同类型的随机变量：离散和连续

随机变量可分为两种主要类型：离散型和连续型。了解这两种类型之间的差异对于选择合适的统计方法和模型至关重要。

图 8.离散和连续随机变量

1.离散随机变量

离散随机变量具有可数的不同值。这些值通常是整数，随机变量通常来自可以计算结果的场景。示例包括一系列抛硬币中正面朝上的次数、一小时内通过收费站的汽车数量或教室里的学生人数。

图 9.离散随机变量 **主要特点：**

可数结果：离散随机变量具有有限或可数无限的可能值集。
2.连续随机变量

连续随机变量在给定间隔内具有无数个值。这些值通常是测量值，可以取一定范围内的任何值。示例包括班级学生的身高、完成任务所需的时间或城市的温度。

主要特点：

不可数结果：连续随机变量可以在区间内取任意值，使得其可能值集不可数。

四、概率分布的定义

随机变量 (X) 的概率分布显示事件概率在随机变量的不同值上的分布情况。当随机变量的所有值在图形上排列时，其概率值会形成一个形状。概率分布具有几个可以测量的属性（例如：期望值和方差）。应该记住，有利结果的概率始终大于零，所有事件的所有概率之和等于 1。

概率分布本质上是任何随机实验或事件的所有可能结果的集合。

概率分布在理解随机变量中的作用

概率分布表征随机变量可能取的值，并为这些值分配概率。这些分布是统计学中的基本概念，描述随机变量的值如何分布。根据随机变量是可数的还是不可数的，概率分布可以分别是离散的或连续的。

离散概率分布：处理离散随机变量（例如，硬币翻转的正面次数）并由概率质量函数（PMF）定义。

连续概率分布：处理连续随机变量（例如，人的身高）并由概率密度函数定义（PDF）。

图 10.概率分布

五、结论

我们的 ML 系列第 18 天深入探讨了条件概率、随机变量和概率分布，这些都是理解概率论的重要概念。在第 19 天 --- PMF、PDF、均值、方差、标准差中，我们将通过探索概率质量函数 (PMF)、概率密度函数 (PDF)和深入研究著名的概率分布来进一步简化。请继续关注我们，我们将继续探索概率世界及其在机器学习及其他领域的应用。