【漫话机器学习系列】029.累积分布函数（Cumulative Distribution Function）

累积分布函数（Cumulative Distribution Function, CDF）

累积分布函数（CDF）是概率论和统计学中的一个基本概念，用于描述随机变量取值的累积概率分布情况。它在理论研究和实际应用中广泛使用。

定义

给定随机变量 X，其累积分布函数 F(x) 定义为：

说明

F(x)：表示随机变量 X 的值小于或等于某个值 x 的概率。
P：表示概率。

性质

单调不减性 ：，当时。
取值范围 ：。
极限性质 ：
连续性：对于连续型随机变量，F(x) 是连续函数；对于离散型随机变量，F(x) 是阶梯函数。

类型

连续型随机变量：

其中，f(x) 是概率密度函数（PDF）。
离散型随机变量：

其中，是随机变量在离散点的概率。

图示

累积分布函数通常表现为一个逐步上升或连续上升的曲线，随着 x 的增加，曲线趋向于 1。

离散型随机变量：阶梯状。
连续型随机变量：平滑曲线。

示例

1. 离散型随机变量

假设 X 为投掷一个骰子的点数，其可能值为 1, 2, 3, 4, 5, 6，每个值的概率为。累积分布函数为：

2. 连续型随机变量

假设 X 服从标准正态分布，其概率密度函数为：

其累积分布函数为：

由于无法用初等函数表示，通常使用数值积分或标准正态分布表计算。

Python 实现

1. 连续型随机变量

使用 SciPy 计算正态分布的累积分布函数：

python 复制代码

import numpy as np
from scipy.stats import norm
import matplotlib.pyplot as plt

# 定义随机变量
x = np.linspace(-4, 4, 1000)
# 标准正态分布的CDF
cdf = norm.cdf(x)

# 绘图
plt.plot(x, cdf, label='CDF of Standard Normal Distribution')
plt.xlabel('x')
plt.ylabel('F(x)')
plt.title('Cumulative Distribution Function')
plt.grid()
plt.legend()
plt.show()

运行结果

plt.legend() plt.show()

2. 离散型随机变量

计算骰子点数的累积分布函数：

python 复制代码

import numpy as np
import matplotlib.pyplot as plt

# 假设 x 是 [1, 2, 3, 4, 5, 6]
x = np.arange(1, 7)
cdf = np.array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6])  # 示例 CDF 数据

# 调整 y 的长度以匹配 x
y_adjusted = np.concatenate(([0], cdf))[:-1]

plt.step(x, y_adjusted, where='post', label='CDF of Dice')
plt.legend()
plt.show()

运行结果

应用

概率计算 ：通过 F(x)，可以快速计算任意区间内的概率：
随机数生成：通过反向变换法生成符合特定分布的随机数。
统计分析：用于描述数据分布及模型拟合效果。

总结

累积分布函数是随机变量概率分布的重要工具，能够直观地描述随机变量的累积概率分布。通过 CDF，既可以快速计算概率，又能用于随机数生成和分布分析。无论是离散型还是连续型随机变量，CDF 都在理论研究和实际应用中扮演着重要角色。