【漫话机器学习系列】029.累积分布函数(Cumulative Distribution Function)

累积分布函数(Cumulative Distribution Function, CDF)

累积分布函数(CDF)是概率论和统计学中的一个基本概念,用于描述随机变量取值的累积概率分布情况。它在理论研究和实际应用中广泛使用。


定义

给定随机变量 X,其累积分布函数 F(x) 定义为:

说明
  • F(x):表示随机变量 X 的值小于或等于某个值 x 的概率。
  • P:表示概率。
性质
  1. 单调不减性,当 时。
  2. 取值范围
  3. 极限性质
  4. 连续性:对于连续型随机变量,F(x) 是连续函数;对于离散型随机变量,F(x) 是阶梯函数。

类型
  • 连续型随机变量

    其中,f(x) 是概率密度函数(PDF)。

  • 离散型随机变量

    其中, 是随机变量在离散点 ​ 的概率。


图示

累积分布函数通常表现为一个逐步上升或连续上升的曲线,随着 x 的增加,曲线趋向于 1。

  1. 离散型随机变量:阶梯状。
  2. 连续型随机变量:平滑曲线。

示例
1. 离散型随机变量

假设 X 为投掷一个骰子的点数,其可能值为 1, 2, 3, 4, 5, 6,每个值的概率为 ​。累积分布函数为:

2. 连续型随机变量

假设 X 服从标准正态分布,其概率密度函数为:

其累积分布函数为:

由于无法用初等函数表示,通常使用数值积分或标准正态分布表计算。


Python 实现
1. 连续型随机变量

使用 SciPy 计算正态分布的累积分布函数:

python 复制代码
import numpy as np
from scipy.stats import norm
import matplotlib.pyplot as plt

# 定义随机变量
x = np.linspace(-4, 4, 1000)
# 标准正态分布的CDF
cdf = norm.cdf(x)

# 绘图
plt.plot(x, cdf, label='CDF of Standard Normal Distribution')
plt.xlabel('x')
plt.ylabel('F(x)')
plt.title('Cumulative Distribution Function')
plt.grid()
plt.legend()
plt.show()

运行结果

plt.legend() plt.show()

2. 离散型随机变量

计算骰子点数的累积分布函数:

python 复制代码
import numpy as np
import matplotlib.pyplot as plt

# 假设 x 是 [1, 2, 3, 4, 5, 6]
x = np.arange(1, 7)
cdf = np.array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6])  # 示例 CDF 数据

# 调整 y 的长度以匹配 x
y_adjusted = np.concatenate(([0], cdf))[:-1]

plt.step(x, y_adjusted, where='post', label='CDF of Dice')
plt.legend()
plt.show()

运行结果


应用
  1. 概率计算 :通过 F(x),可以快速计算任意区间内的概率:

  2. 随机数生成:通过反向变换法生成符合特定分布的随机数。

  3. 统计分析:用于描述数据分布及模型拟合效果。


总结

累积分布函数是随机变量概率分布的重要工具,能够直观地描述随机变量的累积概率分布。通过 CDF,既可以快速计算概率,又能用于随机数生成和分布分析。无论是离散型还是连续型随机变量,CDF 都在理论研究和实际应用中扮演着重要角色。

相关推荐
鳄鱼的眼药水40 分钟前
TT100K数据集, YOLO格式, COCO格式
人工智能·python·yolo·yolov5·yolov8
台风天赋44 分钟前
Large-Vision-Language-Models-LVLMs--info:deepseek-vl模型
人工智能·深度学习·机器学习·多模态大模型·deepseek
三掌柜6665 小时前
2025三掌柜赠书活动第一期:动手学深度学习(PyTorch版)
人工智能·pytorch·深度学习
唯创知音6 小时前
基于W2605C语音识别合成芯片的智能语音交互闹钟方案-AI对话享受智能生活
人工智能·单片机·物联网·生活·智能家居·语音识别
说私域6 小时前
数字化供应链创新解决方案在零售行业的应用研究——以开源AI智能名片S2B2C商城小程序为例
人工智能·开源·零售
yvestine7 小时前
数据挖掘——支持向量机分类器
人工智能·算法·机器学习·支持向量机·分类·数据挖掘·svm
阿正的梦工坊7 小时前
PyTorch到C++再到 CUDA 的调用链(C++ ATen 层) :以torch._amp_update_scale_调用为例
c++·人工智能·pytorch
三万棵雪松7 小时前
5.系统学习-PyTorch与多层感知机
人工智能·pytorch·学习
AIGC大时代7 小时前
不只是工具:ChatGPT写作在学术中的创新思维与深度思考
人工智能·chatgpt·prompt·aigc·ai写作
陈序缘8 小时前
PyTorch快速入门
人工智能·pytorch·python·深度学习·算法·机器学习