物理学基础精解【39】

文章目录

随机变量概率分布
- [中心极限定理（Central Limit Theorem，CLT）](#中心极限定理（Central Limit Theorem，CLT）)
- 概率论重要的定理和公式
- - [1. 概率公理与性质](#1. 概率公理与性质)
  - [2. 条件概率与独立性](#2. 条件概率与独立性)
  - [3. 全概率公式与贝叶斯公式](#3. 全概率公式与贝叶斯公式)
  - [4. 伯努利大数定律](#4. 伯努利大数定律)
  - [5. 弱大数定律与强大数定律](#5. 弱大数定律与强大数定律)
  - [6. 其他重要概念与定理](#6. 其他重要概念与定理)
  - 全概率公式
  - 贝叶斯公式
  - 区别与联系
- 离散随机变量的概率质量函数的数学推导过程
- 连续随机变量的概率密度函数的数学推导过程
- - 一、概率的公理化定义
  - 二、连续随机变量与概率密度函数
  - - [1. 概率密度函数的存在性](#1. 概率密度函数的存在性)
    - [2. 概率密度函数的性质](#2. 概率密度函数的性质)
  - 三、数学推导的直观理解
  - 四、例子
- 不同类型的连续分布及其概率密度函数的推导和应用。
- - [1. 正态分布（高斯分布）](#1. 正态分布（高斯分布）)
  - [2. 指数分布](#2. 指数分布)
  - [3. 均匀分布](#3. 均匀分布)
  - [4. 复合随机变量的概率密度函数](#4. 复合随机变量的概率密度函数)
- 二元连续随机变量
参考文献

随机变量概率分布

连续随机变量的概率密度函数（Probability Density Function, PDF）的数学推导过程可以从概率的公理化定义和测度论的基础出发，但这里我们将给出一个相对直观且简化的解释，避免涉及过于复杂的数学理论。

中心极限定理（Central Limit Theorem，CLT）

是概率论中一个非常重要且广泛应用的定理。它主要讨论的是随机变量序列部分和的分布渐近于正态分布的一类问题。以下是关于中心极限定理的详细解释：

定义与背景

定义：中心极限定理指出，在一定条件下，大量相互独立的随机变量的和，其分布会趋近于正态分布，无论这些随机变量原本的分布形态如何。
背景：在自然界与生产中，许多现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小时，总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。

主要内容

独立同分布的中心极限定理：设随机变量X₁，X₂，...Xₙ是一列独立同分布的随机变量，且具有数学期望μ和方差σ²。那么，当n很大时，这些随机变量之和Sₙ=∑Xᵢ（i从1到n）近似服从正态分布N(nμ，nσ²)。
棣莫佛－拉普拉斯定理：这是中心极限定理的一种特殊形式，它表明当n充分大时，二项分布可以近似为正态分布。

通俗解释

给定一个任意分布的总体，每次从这个总体中随机抽取n个样本，重复m次这样的抽取，并计算每次抽取的样本均值。当n足够大且m足够多时，这些样本均值的分布将趋近于正态分布，且该正态分布的均值等于总体的均值，方差为总体方差除以n。

意义与应用

意义：中心极限定理为统计学的应用提供了基础。通过它，我们可以在不知道总体分布情况的情况下，利用样本均值的抽样分布来进行统计推断，如点估计和区间估计。
应用：中心极限定理在多个领域有广泛应用，如质量控制、抽样调查、金融分析等。它使得我们可以利用正态分布的性质来简化复杂的统计问题，提高统计推断的准确性和效率。

注意事项

在应用中心极限定理时，需要确保样本量足够大，通常要求n≥30，以确保样本均值的分布接近正态分布。
此外，样本的抽取应当是独立的，以避免样本间的相关性对结果产生影响。

综上所述，中心极限定理是概率论中一个极其重要的定理，它揭示了大量随机变量和的分布趋近于正态分布的规律，为统计学的应用提供了坚实的理论基础。

概率论重要的定理和公式

这些定理和公式在概率论和统计学中发挥着至关重要的作用。以下是一些常见的概率论定理和公式：

1. 概率公理与性质

概率公理 ：
- 非负性：对于任意事件A，有P(A) ≥ 0。
- 规范性：样本空间S的概率为1，即P(S) = 1。
- 可列可加性：对于任意可数个不相交事件A1、A2、A3...，有P(A1 ∪ A2 ∪ A3 ∪ ...) = P(A1) + P(A2) + P(A3) + ...。

2. 条件概率与独立性

条件概率公式：在事件B发生的条件下，事件A发生的概率为P(A|B) = P(AB) / P(B)，其中P(B) > 0。
乘法公式：两事件积的概率等于其中一事件的概率与另一事件在前一事件已发生时的条件概率的乘积，即P(AB) = P(B|A)P(A) = P(A|B)P(B)。该公式可以推广到多个事件。
事件的独立性：如果两个事件A和B满足P(AB) = P(A)P(B)，则称A和B是相互独立的。

3. 全概率公式与贝叶斯公式

全概率公式：如果事件组B1, B2, ..., Bn是一个完备事件组，且B1 ∪ B2 ∪ ... ∪ Bn = Ω，则对于任意事件A，有P(A) = ∑[i=1 to n] P(Bi)P(A|Bi)。
贝叶斯公式：在已知结果A的情况下，求导致这一结果的原因Bi的概率，即P(Bi|A) = P(A|Bi)P(Bi) / ∑[j=1 to n] P(A|Bj)P(Bj)。

4. 伯努利大数定律

伯努利大数定律：在多次重复试验中，频率有越趋稳定的趋势。即在相同的条件下，进行了n次试验，事件A发生的次数nA称为事件A发生的频数，比值nA/n称为事件A发生的频率，记为fn(A)。当n趋向于无穷大时，频率fn(A)在一定意义下接近于概率P(A)。

5. 弱大数定律与强大数定律

弱大数定律：在独立同分布的随机变量序列中，如果每个随机变量的数学期望都存在且相等，那么随机变量序列的算术平均值以概率1收敛到该期望值。
强大数定律：在更严格的条件下，随机变量序列的算术平均值几乎必然收敛到该期望值。

6. 其他重要概念与定理

切比雪夫不等式：给出了随机变量与其期望值之间偏差的概率上界。
随机变量及其概率分布：包括离散型随机变量和连续型随机变量，它们分别通过分布律和概率密度函数来描述其取值规律。
多维随机变量及其分布：当涉及两个或更多随机变量时，需要考虑它们的联合分布、边缘分布和条件分布等。

这些定理和公式构成了概率论的基础框架，为统计学、金融学、物理学、工程学、计算机科学和生物学等多个领域提供了重要的理论支持。

当然可以，以下是对全概率公式和贝叶斯公式的详细解释：

全概率公式

定义：

全概率公式是概率论中的一个基本公式，用于计算在某一复杂事件发生时，该事件是由各个互斥且完备的子事件中的哪一个引起的概率总和。简单来说，就是将一个复杂事件分解为若干个互不相容且完备的子事件，然后分别求出每个子事件发生的概率以及在这些子事件发生的条件下复杂事件发生的条件概率，最后将这些乘积相加得到复杂事件的总概率。

公式形式：

设B1, B2, ..., Bn是样本空间Ω的一个划分（即B1, B2, ..., Bn两两互斥且它们的并集为Ω，且对于任意的i，P(Bi)>0），则对于任意的事件A，有

P ( A ) = P ( B 1 ) P ( A ∣ B 1 ) + P ( B 2 ) P ( A ∣ B 2 ) + ... + P ( B n ) P ( A ∣ B n ) P(A) = P(B_1)P(A|B_1) + P(B_2)P(A|B_2) + \ldots + P(B_n)P(A|B_n) P(A)=P(B1)P(A∣B1)+P(B2)P(A∣B2)+...+P(Bn)P(A∣Bn)

解释：

P(Bi)：表示第i个子事件发生的概率。
P(A|Bi)：表示在第i个子事件已经发生的条件下，事件A发生的条件概率。
P(A)：表示事件A发生的总概率，它是所有子事件下A发生概率的加权和。

应用场景：

全概率公式广泛应用于各种需要计算复合事件概率的场景，如决策分析、风险管理、市场预测等。

贝叶斯公式

定义：

贝叶斯公式是概率论中的一条重要定理，用于计算在已知某一事件发生的条件下，另一事件发生的概率。它是基于贝叶斯定理推导出来的，用于更新在获得新信息后对某事件发生概率的估计。

公式形式：

设A和B是两个事件，且P(B)>0，则

P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A)

解释：

P(A|B)：表示在事件B发生的条件下，事件A发生的条件概率，也被称为后验概率。
P(B|A)：表示在事件A发生的条件下，事件B发生的条件概率，也被称为似然度。
P(A)：表示事件A发生的先验概率，即在观测到任何新信息之前，我们对事件A发生的初始估计。
P(B)：表示事件B发生的概率，它可以用全概率公式求出，即P(B) = P(A)P(B|A) + P(¬A)P(B|¬A)，其中¬A表示事件A不发生。

应用场景：

贝叶斯公式在金融风险评估、医学诊断、垃圾邮件过滤、自然语言处理、推荐系统等多个领域都有广泛的应用。它允许我们在获得新信息后更新对某事件发生概率的估计，从而做出更准确的决策和预测。

区别与联系

处理对象不同：全概率公式用于计算复杂事件的总概率，而贝叶斯公式用于计算在已知某一事件发生的条件下另一事件发生的概率。
思想不同：全概率公式是将一个复杂事件分解为若干个简单的子事件来求解，而贝叶斯公式是利用已知的结果反推出原因的可能性。
应用上相互配合：在实际应用中，全概率公式和贝叶斯公式经常相互配合使用。全概率公式可以用来求出贝叶斯公式中的分母（即事件B发生的总概率），而贝叶斯公式则用于更新在事件B已经发生的条件下事件A发生的概率估计。

离散随机变量的概率质量函数的数学推导过程

离散随机变量的概率质量函数（Probability Mass Function, PMF）并不需要复杂的数学推导过程，因为它基本上是离散随机变量概率分布的直接描述。不过，我们可以从基本概念出发，来阐述如何确定一个离散随机变量的概率质量函数。

基本概念

离散随机变量：一个随机变量如果只能取有限个或可数个不同的值，则称它为离散随机变量。
概率质量函数：对于离散随机变量X，其概率质量函数p(x)定义为P(X=x)，即随机变量X取值为x的概率。

确定概率质量函数的步骤

确定随机变量的所有可能取值：首先，需要明确离散随机变量X所有可能的取值，这些取值构成一个集合，称为X的取值范围或样本空间。
为每个可能取值分配概率：根据问题的具体背景或已知条件，为每个可能取值x分配一个概率p(x)，这个概率表示在随机试验中，随机变量X取值为x的可能性大小。
验证概率性质：确保分配的概率满足概率的基本性质，即非负性和归一性。非负性意味着对于任意x，都有p(x)≥0；归一性意味着所有可能取值的概率之和等于1，即∑p(x)=1（x遍历所有可能取值）。

示例

假设有一个不均匀的骰子，它有六个面，分别标有1到6的数字，但每个面出现的概率不同。具体地，数字1出现的概率是0.1，数字2出现的概率是0.2，数字3出现的概率是0.15，数字4出现的概率是0.25，数字5出现的概率是0.15，数字6出现的概率是0.15。

对于这个离散随机变量X（表示骰子掷出的数字），其概率质量函数可以表示为：

p ( x ) = { 0.1 , if x = 1 0.2 , if x = 2 0.15 , if x = 3 0.25 , if x = 4 0.15 , if x = 5 0.15 , if x = 6 0 , otherwise p(x) = \begin{cases} 0.1, & \text{if } x = 1 \\ 0.2, & \text{if } x = 2 \\ 0.15, & \text{if } x = 3 \\ 0.25, & \text{if } x = 4 \\ 0.15, & \text{if } x = 5 \\ 0.15, & \text{if } x = 6 \\ 0, & \text{otherwise} \end{cases} p(x)=⎩ ⎨ ⎧0.1,0.2,0.15,0.25,0.15,0.15,0,if x=1if x=2if x=3if x=4if x=5if x=6otherwise

注意，这里"otherwise"的情况概率为0，因为X只能取1到6的整数值。

结论

离散随机变量的概率质量函数是描述其概率分布的直接工具，不需要复杂的数学推导。只需明确随机变量的所有可能取值，并为每个取值分配一个满足概率基本性质的概率即可。

连续随机变量的概率密度函数的数学推导过程

一、概率的公理化定义

首先，我们回顾概率的公理化定义：

非负性 ：对于任意事件 A A A，有 P ( A ) ≥ 0 P(A) \geq 0 P(A)≥0。
可加性 ：对于任意两个互斥事件 A A A 和 B B B，有 P ( A ∪ B ) = P ( A ) + P ( B ) P(A \cup B) = P(A) + P(B) P(A∪B)=P(A)+P(B)。
全概率 ：对于必然事件 S S S（即样本空间），有 P ( S ) = 1 P(S) = 1 P(S)=1。

二、连续随机变量与概率密度函数

对于连续随机变量，我们不能像离散随机变量那样直接列出所有可能的取值及其概率。相反，我们需要用一种连续的方式来描述随机变量取值的概率分布。这就是概率密度函数的作用。

1. 概率密度函数的存在性

考虑一个连续随机变量 X X X，其取值范围在实数轴 R R R 上。我们假设存在一个非负函数 f ( x ) f(x) f(x)，使得对于任意实数 a < b a < b a<b，有

P ( a ≤ X < b ) = ∫ a b f ( x ) d x P(a \leq X < b) = \int_{a}^{b} f(x) \, dx P(a≤X<b)=∫abf(x)dx

这个函数 f ( x ) f(x) f(x) 就是我们要找的概率密度函数。注意，这里用到了定积分来表示概率，这是因为连续随机变量的取值是连续的，不能用简单的求和来表示。

2. 概率密度函数的性质

由概率的公理化定义和上述假设，我们可以推导出概率密度函数的以下性质：

非负性 ：由于概率是非负的，所以 f ( x ) ≥ 0 f(x) \geq 0 f(x)≥0 对所有 x x x 成立。
归一化 ：由于全概率为1，即 P ( − ∞ < X < ∞ ) = 1 P(-\infty < X < \infty) = 1 P(−∞<X<∞)=1，所以有

∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty} f(x) \, dx = 1 ∫−∞∞f(x)dx=1

这个性质确保了概率密度函数在整个实数轴上的积分等于1，与全概率公理相一致。

三、数学推导的直观理解

虽然上述推导过程是基于假设和公理化定义的，但我们可以直观地理解为什么需要概率密度函数。

连续性：连续随机变量的取值是连续的，不能用离散的概率分布来描述。因此，我们需要一种连续的函数来表示随机变量取值的概率分布。
积分表示概率：由于连续性的存在，我们用积分来表示随机变量落在某个区间内的概率。概率密度函数就是描述这种概率分布的函数。

四、例子

考虑一个简单的例子：均匀分布。假设随机变量 X X X 在区间 [ 0 , 1 ] [0, 1] [0,1] 上均匀分布，那么其概率密度函数为

f ( x ) = { 1 , 0 ≤ x ≤ 1 0 , 其他 f(x) = \begin{cases} 1, & 0 \leq x \leq 1 \\ 0, & \text{其他} \end{cases} f(x)={1,0,0≤x≤1其他

对于任意 a < b a < b a<b 且 a , b ∈ [ 0 , 1 ] a, b \in [0, 1] a,b∈[0,1]，有

P ( a ≤ X < b ) = ∫ a b 1 d x = b − a P(a \leq X < b) = \int_{a}^{b} 1 \, dx = b - a P(a≤X<b)=∫ab1dx=b−a

这符合我们的直观理解：在均匀分布中，随机变量落在任意子区间内的概率等于该子区间的长度。

综上所述，连续随机变量的概率密度函数是一种描述连续随机变量取值概率分布的函数。它通过积分来表示随机变量落在某个区间内的概率，并满足非负性和归一化的性质。

不同类型的连续分布及其概率密度函数的推导和应用。

1. 正态分布（高斯分布）

正态分布是连续型随机变量中最常见的一种分布，其概率密度函数为：

f ( x ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) f(x)=2πσ2 1exp(−2σ2(x−μ)2)

其中， μ \mu μ 是均值， σ 2 \sigma^2 σ2 是方差， σ \sigma σ 是标准差。

推导过程 ：

正态分布的概率密度函数通常不是从第一原理推导出来的，而是基于中心极限定理和实际应用中的观察。不过，可以从正态分布的累积分布函数（CDF）通过求导得到其概率密度函数。累积分布函数为：

F ( x ) = 1 2 π σ 2 ∫ − ∞ x exp ⁡ ( − ( t − μ ) 2 2 σ 2 ) d t F(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{x} \exp\left(-\frac{(t-\mu)^2}{2\sigma^2}\right) \, dt F(x)=2πσ2 1∫−∞xexp(−2σ2(t−μ)2)dt

对 F ( x ) F(x) F(x) 求导即可得到 f ( x ) f(x) f(x)。

应用例子 ：

假设某次考试的分数服从均值为75，标准差为10的正态分布，求分数在70到80之间的概率。

2. 指数分布

指数分布常用于描述等待时间、寿命数据等，其概率密度函数为：

f ( x ) = λ e − λ x , x ≥ 0 f(x) = \lambda e^{-\lambda x}, \quad x \geq 0 f(x)=λe−λx,x≥0

其中， λ > 0 \lambda > 0 λ>0 是参数，表示单位时间内发生某事件的平均次数。

推导过程 ：

指数分布的概率密度函数可以从其无记忆性（即 P ( X > s + t ∣ X > s ) = P ( X > t ) P(X > s+t | X > s) = P(X > t) P(X>s+t∣X>s)=P(X>t)）和累积分布函数的定义推导出来。累积分布函数为：

F ( x ) = 1 − e − λ x , x ≥ 0 F(x) = 1 - e^{-\lambda x}, \quad x \geq 0 F(x)=1−e−λx,x≥0

对 F ( x ) F(x) F(x) 求导即可得到 f ( x ) f(x) f(x)。

应用例子 ：

假设某机器的平均无故障工作时间为10小时（即故障率 λ = 0.1 \lambda = 0.1 λ=0.1 次/小时），求该机器在未来8小时内发生故障的概率。

3. 均匀分布

均匀分布是最简单的连续分布之一，其概率密度函数为：

f ( x ) = 1 b − a , a ≤ x ≤ b f(x) = \frac{1}{b-a}, \quad a \leq x \leq b f(x)=b−a1,a≤x≤b

其中， a a a 和 b b b 是分布的上下界。

推导过程 ：

均匀分布的概率密度函数可以从其定义直接得出，即随机变量在区间 [ a , b ] [a, b] [a,b] 内取任意值的概率是相等的。

应用例子 ：

假设从长度为10米的线段上随机选取一点，求该点到线段一端的距离在3到7米之间的概率。

4. 复合随机变量的概率密度函数

当随机变量是另一个随机变量的函数时，其概率密度函数可以通过变量替换和积分来推导。例如，设随机变量 X X X 的概率密度函数为 f X ( x ) f_X(x) fX(x)，随机变量 Y = g ( X ) Y = g(X) Y=g(X)，则 Y Y Y 的概率密度函数 f Y ( y ) f_Y(y) fY(y) 可以通过以下方式推导：

f Y ( y ) = ∑ x : g ( x ) = y f X ( x ) ∣ g ′ ( x ) ∣ （对于离散值 y ） f_Y(y) = \sum_{x: g(x) = y} \frac{f_X(x)}{|g'(x)|} \quad \text{（对于离散值} y \text{）} fY(y)=x:g(x)=y∑∣g′(x)∣fX(x)（对于离散值y）

或

f Y ( y ) = ∫ x : g ( x ) = y f X ( x ) ∣ g ′ ( x ) ∣ d x （对于连续值 y ） f_Y(y) = \int_{x: g(x) = y} \frac{f_X(x)}{|g'(x)|} \, dx \quad \text{（对于连续值} y \text{）} fY(y)=∫x:g(x)=y∣g′(x)∣fX(x)dx（对于连续值y）

注意：在实际应用中， g ( x ) = y g(x) = y g(x)=y 往往表示一个区间或集合，因此需要对所有满足条件的 x x x 进行求和或积分。

应用例子 ：

假设随机变量 X X X 服从标准正态分布 N ( 0 , 1 ) N(0, 1) N(0,1)，求 Y = X 2 Y = X^2 Y=X2 的概率密度函数。这涉及到对 X X X 的概率密度函数进行变量替换和积分。

二元连续随机变量

二元连续随机变量的概率密度函数

定义：

二元连续随机变量的概率密度函数（Probability Density Function, PDF）是一个描述两个连续随机变量联合分布的函数。设 ( X , Y ) (X, Y) (X,Y) 是一个二元连续随机变量，其概率密度函数 f ( x , y ) f(x, y) f(x,y) 满足：

f ( x , y ) ≥ 0 f(x, y) \geq 0 f(x,y)≥0 对所有 x , y x, y x,y 成立。
∫ − ∞ ∞ ∫ − ∞ ∞ f ( x , y ) d x d y = 1 \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x, y) \, dx \, dy = 1 ∫−∞∞∫−∞∞f(x,y)dxdy=1。

公式：

概率 P ( ( X , Y ) ∈ A ) P((X, Y) \in A) P((X,Y)∈A) 可以通过对 A A A 区域内的 f ( x , y ) f(x, y) f(x,y) 进行积分得到，即
P ( ( X , Y ) ∈ A ) = ∬ A f ( x , y ) d x d y P((X, Y) \in A) = \iint_A f(x, y) \, dx \, dy P((X,Y)∈A)=∬Af(x,y)dxdy

原理：

概率密度函数描述了随机变量取值的概率分布，通过积分可以计算随机变量落在某个区域内的概率。

数学推导过程 ：

由概率的公理化定义和测度论的基础，可以推导出概率密度函数的存在性和性质。具体推导涉及复杂的数学理论，这里不详细展开。

计算：

通常通过给定的联合分布函数或通过已知的条件来求解概率密度函数。计算过程中常使用双重积分。

例子：

设随机变量 X X X 和 Y Y Y 的联合分布为均匀分布，在区域 0 ≤ x ≤ 1 , 0 ≤ y ≤ 1 0 \leq x \leq 1, 0 \leq y \leq 1 0≤x≤1,0≤y≤1 内，其概率密度函数为
f ( x , y ) = { 1 , 0 ≤ x ≤ 1 , 0 ≤ y ≤ 1 0 , 其他 f(x, y) = \begin{cases} 1, & 0 \leq x \leq 1, 0 \leq y \leq 1 \\ 0, & \text{其他} \end{cases} f(x,y)={1,0,0≤x≤1,0≤y≤1其他

例题：

求 P ( X + Y ≤ 1 ) P(X + Y \leq 1) P(X+Y≤1)。

解：
P ( X + Y ≤ 1 ) = ∫ 0 1 ∫ 0 1 − x 1 d y d x = ∫ 0 1 ( 1 − x ) d x = [ x − x 2 2 ] 0 1 = 1 2 P(X + Y \leq 1) = \int_{0}^{1} \int_{0}^{1-x} 1 \, dy \, dx = \int_{0}^{1} (1 - x) \, dx = \left[ x - \frac{x^2}{2} \right]_{0}^{1} = \frac{1}{2} P(X+Y≤1)=∫01∫01−x1dydx=∫01(1−x)dx=[x−2x2]01=21

边缘密度函数

定义：

边缘密度函数（Marginal Density Function）是描述二元随机变量中单一随机变量分布的函数。对于随机变量 X X X，其边缘密度函数 f X ( x ) f_X(x) fX(x) 是通过联合概率密度函数对 Y Y Y 积分得到的。

公式：
f X ( x ) = ∫ − ∞ ∞ f ( x , y ) d y f_X(x) = \int_{-\infty}^{\infty} f(x, y) \, dy fX(x)=∫−∞∞f(x,y)dy

同理，对于 Y Y Y，有
f Y ( y ) = ∫ − ∞ ∞ f ( x , y ) d x f_Y(y) = \int_{-\infty}^{\infty} f(x, y) \, dx fY(y)=∫−∞∞f(x,y)dx

原理：

边缘密度函数描述了在不考虑另一个随机变量的情况下，单一随机变量的概率分布。

计算：

通过对联合概率密度函数进行积分，消去其中一个变量，得到边缘密度函数。

例子：

对于上述均匀分布的例子，边缘密度函数为
f X ( x ) = ∫ 0 1 1 d y = 1 , 0 ≤ x ≤ 1 f_X(x) = \int_{0}^{1} 1 \, dy = 1, \quad 0 \leq x \leq 1 fX(x)=∫011dy=1,0≤x≤1
f Y ( y ) = ∫ 0 1 1 d x = 1 , 0 ≤ y ≤ 1 f_Y(y) = \int_{0}^{1} 1 \, dx = 1, \quad 0 \leq y \leq 1 fY(y)=∫011dx=1,0≤y≤1

条件密度函数

定义：

条件密度函数（Conditional Density Function）是在给定另一个随机变量取值的情况下，描述一个随机变量分布的函数。设 f ( x , y ) f(x, y) f(x,y) 是 ( X , Y ) (X, Y) (X,Y) 的联合密度函数，则条件密度函数定义为
f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)} fX∣Y(x∣y)=fY(y)f(x,y)

同理，对于 Y Y Y 给定 X X X 的情况，有
f Y ∣ X ( y ∣ x ) = f ( x , y ) f X ( x ) f_{Y|X}(y|x) = \frac{f(x, y)}{f_X(x)} fY∣X(y∣x)=fX(x)f(x,y)

公式：

如上所述。

原理：

条件密度函数描述了在一个随机变量取值已知的情况下，另一个随机变量的概率分布。

计算：

通过联合密度函数除以相应的边缘密度函数得到条件密度函数。

例子：

对于上述均匀分布的例子，条件密度函数为（在 0 ≤ x ≤ 1 , 0 ≤ y ≤ 1 0 \leq x \leq 1, 0 \leq y \leq 1 0≤x≤1,0≤y≤1 内）
f X ∣ Y ( x ∣ y ) = 1 1 = 1 f_{X|Y}(x|y) = \frac{1}{1} = 1 fX∣Y(x∣y)=11=1
f Y ∣ X ( y ∣ x ) = 1 1 = 1 f_{Y|X}(y|x) = \frac{1}{1} = 1 fY∣X(y∣x)=11=1

注意：在这个特殊例子中，由于是均匀分布，条件密度函数与 x x x 和 y y y 无关，但在一般情况下，条件密度函数会依赖于给定的条件。

例题：

求 P ( X ≤ 1 2 ∣ Y = 1 2 ) P(X \leq \frac{1}{2} | Y = \frac{1}{2}) P(X≤21∣Y=21)。

解：

由于条件密度函数在 0 ≤ x ≤ 1 , 0 ≤ y ≤ 1 0 \leq x \leq 1, 0 \leq y \leq 1 0≤x≤1,0≤y≤1 内为 1，因此
P ( X ≤ 1 2 ∣ Y = 1 2 ) = ∫ 0 1 2 1 d x = 1 2 P(X \leq \frac{1}{2} | Y = \frac{1}{2}) = \int_{0}^{\frac{1}{2}} 1 \, dx = \frac{1}{2} P(X≤21∣Y=21)=∫0211dx=21

参考文献

文心一言