机器学习概率论与统计学--(4)概率论:概率质量函数与概率密度函数

在上一讲中,我们学习了随机变量的概念,并知道了分布函数 F ( x ) = P ( X ≤ x ) F(x)=P(X\le x) F(x)=P(X≤x) 可以统一描述离散和连续随机变量。然而,实际工作中更常用的是另外两个函数:概率质量函数 (PMF)用于离散随机变量,概率密度函数(PDF)用于连续随机变量。它们直接给出了概率的分布情况,是理解各种分布模型的核心。


1. 概率质量函数(PMF)

1.1 定义

设 X X X 是一个离散型随机变量 ,其所有可能取值的集合称为状态空间 ,记为 X \mathcal{X} X(通常 X \mathcal{X} X 是可数集,如整数集、有限集等)。 称函数
p ( x ) = P ( X = x ) , x ∈ X p(x) = P(X = x), \quad x \in X p(x)=P(X=x),x∈X

为 X X X 的概率质量函数 (Probability Mass Function, PMF)。其中 x x x 是 X X X 的所有可能取值集合。

1.2 基本性质

  1. 非负性 : p ( x ) ≥ 0 p(x) \ge 0 p(x)≥0 对所有 x x x 成立。
  2. 归一性 : ∑ x ∈ X p ( x ) = 1 \sum_{x \in \mathcal{X}} p(x) = 1 ∑x∈Xp(x)=1。
  3. 对于任意事件 A ⊆ X A \subseteq \mathcal{X} A⊆X,有 P ( X ∈ A ) = ∑ x ∈ A p ( x ) P(X \in A) = \sum_{x \in A} p(x) P(X∈A)=∑x∈Ap(x)。

1.3 与分布函数的关系

分布函数 F ( x ) = P ( X ≤ x ) F(x) = P(X \le x) F(x)=P(X≤x) 可以通过 PMF 累加得到:
F ( x ) = ∑ x i ≤ x p ( x i ) . F(x) = \sum_{x_i \le x} p(x_i). F(x)=xi≤x∑p(xi).

反过来,若已知 F ( x ) F(x) F(x),则每个取值点上的概率等于该点处跳跃的高度:
p ( x i ) = F ( x i ) − F ( x i − ) = P ( X = x i ) p(x_i) = F(x_i) - F(x_i^-) = P(X = x_i) p(xi)=F(xi)−F(xi−)=P(X=xi)

其中 F ( x i − ) F(x_i^-) F(xi−) 是 F F F 在 x i x_i xi 处的左极限( F ( x i − ) = lim ⁡ x → x i − F ( x ) F(x_i^-) = \lim_{x \to x_i^-} F(x) F(xi−)=limx→xi−F(x) )。因为离散随机变量的分布函数是右连续的阶梯函数。

为什么跳跃高度等于概率质量?

因为
F ( x ) = P ( X ≤ x ) , F ( x − ) = P ( X < x ) . F(x) = P(X \le x), \quad F(x^-) = P(X < x). F(x)=P(X≤x),F(x−)=P(X<x).

于是
F ( x ) − F ( x − ) = P ( X ≤ x ) − P ( X < x ) = P ( X = x ) . F(x) - F(x^-) = P(X \le x) - P(X < x) = P(X = x). F(x)−F(x−)=P(X≤x)−P(X<x)=P(X=x).

所以,跳跃高度就是随机变量恰好等于该点的概率。

1.4 例子

例1 :掷一颗公平的骰子,点数 X X X 的 PMF 为
p ( 1 ) = p ( 2 ) = ⋯ = p ( 6 ) = 1 6 p(1)=p(2)=\cdots=p(6)=\frac{1}{6} p(1)=p(2)=⋯=p(6)=61

验证: ∑ k = 1 6 1 6 = 1 \sum_{k=1}^6 \frac{1}{6}=1 ∑k=1661=1。
例2 :一个盒子里有 3 个红球、2 个蓝球,随机摸一个球,设 X = 1 X=1 X=1 若红球, X = 0 X=0 X=0 若蓝球。则
p ( 1 ) = 3 5 , p ( 0 ) = 2 5 p(1)=\frac{3}{5},\quad p(0)=\frac{2}{5} p(1)=53,p(0)=52

1.5 图示

PMF 通常用竖线图(或柱状图)表示,每根竖线的高度等于该点的概率。


2. 概率密度函数(PDF)

2.1 定义

设 X X X 是一个连续随机变量 ,如果存在一个非负函数 f ( x ) f(x) f(x),使得对于任意实数 a ≤ b a \le b a≤b 有
P ( a ≤ X ≤ b ) = ∫ a b f ( x )   d x , P(a \le X \le b) = \int_a^b f(x) \, dx, P(a≤X≤b)=∫abf(x)dx,

则称 f ( x ) f(x) f(x) 为 X X X 的概率密度函数(Probability Density Function, PDF)。

2.2 基本性质

  1. 非负性 : f ( x ) ≥ 0 f(x) \ge 0 f(x)≥0 对所有 x ∈ R x \in \mathbb{R} x∈R 成立。
  2. 归一性 : ∫ − ∞ ∞ f ( x )   d x = 1 \int_{-\infty}^{\infty} f(x) \, dx = 1 ∫−∞∞f(x)dx=1。
  3. 对于任意区间 I I I,有 P ( X ∈ I ) = ∫ I f ( x )   d x P(X \in I) = \int_I f(x) \, dx P(X∈I)=∫If(x)dx。

2.3 与分布函数的关系

分布函数 F ( x ) = ∫ − ∞ x f ( t )   d t F(x) = \int_{-\infty}^x f(t) \, dt F(x)=∫−∞xf(t)dt,且当 f f f 连续时,有
f ( x ) = F ′ ( x ) f(x) = F'(x) f(x)=F′(x)

注意:对于连续随机变量,单点概率为零: P ( X = a ) = ∫ a a f ( x )   d x = 0 P(X = a) = \int_a^a f(x) \, dx = 0 P(X=a)=∫aaf(x)dx=0。这一点与离散情形完全不同。

2.4 密度函数的直观理解

f ( x ) f(x) f(x) 本身不是概率,而是概率的"密度"。在一个微小区间 [ x , x + d x ] [x, x+dx] [x,x+dx] 上,概率近似为 f ( x )   d x f(x) \, dx f(x)dx。因此, f ( x ) f(x) f(x) 的值可以大于 1,只要积分保持为 1 即可。

2.5 例子

例3 :均匀分布 U ( 0 , 1 ) U(0,1) U(0,1) 的 PDF 为
f ( x ) = { 1 , 0 ≤ x ≤ 1 , 0 , 其他 . f(x) = \begin{cases} 1, & 0 \le x \le 1,\\ 0, & \text{其他}. \end{cases} f(x)={1,0,0≤x≤1,其他.

验证: ∫ 0 1 1   d x = 1 \int_0^1 1 \, dx = 1 ∫011dx=1,且 P ( 0.2 ≤ X ≤ 0.5 ) = 0.3 P(0.2 \le X \le 0.5) = 0.3 P(0.2≤X≤0.5)=0.3。
例4 :指数分布 Exp ( λ ) \text{Exp}(\lambda) Exp(λ) 的 PDF 为
f ( x ) = λ e − λ x , x ≥ 0. f(x) = \lambda e^{-\lambda x}, \quad x \ge 0. f(x)=λe−λx,x≥0.

其积分 ∫ 0 ∞ λ e − λ x d x = 1 \int_0^\infty \lambda e^{-\lambda x} dx = 1 ∫0∞λe−λxdx=1。


3. PMF 与 PDF 的对比

特征 概率质量函数 (PMF) 概率密度函数 (PDF)
适用变量 离散随机变量 连续随机变量
定义域 可数集 X \mathcal{X} X R \mathbb{R} R 或某个区间
函数值 概率值, ≤ 1 \le 1 ≤1 密度值,可大于 1
求和/积分 ∑ p ( x ) = 1 \sum p(x) = 1 ∑p(x)=1 ∫ f ( x ) d x = 1 \int f(x) dx = 1 ∫f(x)dx=1
概率计算 P ( X ∈ A ) = ∑ x ∈ A p ( x ) P(X \in A) = \sum_{x \in A} p(x) P(X∈A)=∑x∈Ap(x) P ( X ∈ A ) = ∫ A f ( x ) d x P(X \in A) = \int_A f(x) dx P(X∈A)=∫Af(x)dx
与分布函数关系 F ( x ) = ∑ x i ≤ x p ( x i ) F(x) = \sum_{x_i \le x} p(x_i) F(x)=∑xi≤xp(xi) F ( x ) = ∫ − ∞ x f ( t ) d t F(x) = \int_{-\infty}^x f(t) dt F(x)=∫−∞xf(t)dt
单点概率 P ( X = x ) = p ( x ) P(X = x) = p(x) P(X=x)=p(x),可能为正 P ( X = x ) = 0 P(X = x) = 0 P(X=x)=0

4. 进一步理解

为什么连续随机变量单点概率为零?

对于连续随机变量,事件 { X = a } \{X = a\} {X=a} 对应于长度为 0 的区间,而概率由积分给出,因此自然为零。这也意味着我们只能讨论区间概率。这一性质在数学上保证了分布函数的连续性,也使得我们可以用密度函数进行微积分运算。


5. 小结

  • PMF 是离散随机变量的"概率分布表",直接给出每个可能取值的概率。
  • PDF 是连续随机变量的"概率密度",通过积分得到区间概率。
  • 两者都满足非负性和归一性,且可以通过分布函数相互转化。

掌握 PMF 和 PDF 是学习具体分布(如二项分布、正态分布)的基础。

上一章 机器学习概率论与统计学--(3)概率论:随机变量

下一章 机器学习概率论与统计学--(5)概率论:离散分布

相关推荐
QQsuccess2 小时前
人工智能(AI)全体系学习——系列二
人工智能·学习·机器学习
落羽的落羽2 小时前
【Linux系统】中断机制、用户态与内核态、虚拟地址与页表的本质
java·linux·服务器·c++·人工智能·算法·机器学习
乐分启航13 小时前
SliMamba:十余K参数量刷新SOTA!高光谱分类的“降维打击“来了
java·人工智能·深度学习·算法·机器学习·分类·数据挖掘
Theodore_102216 小时前
深度学习(11):偏差与方差诊断、学习曲线
人工智能·笔记·深度学习·神经网络·机器学习·计算机视觉
Theodore_102217 小时前
深度学习(12)正则化线性回归中的偏差与方差调试
人工智能·深度学习·算法·机器学习·线性回归
链巨人18 小时前
理解L-平滑 (L-smoothness)和\mu-强凸 (\mu-strong convexity)并以此假设来证明梯度下降方法的收敛性
人工智能·机器学习
Zero21 小时前
机器学习概率论与统计学--(2)统计学基础
机器学习·概率论·统计学
做科研的周师兄21 小时前
巴音河中下游灌溉草地空间分布数据集(2020年)
大数据·人工智能·算法·机器学习·数据挖掘·聚类
纤纡.21 小时前
矿物识别分类:8 种机器学习算法对比与实战(平均值填充数据集)
python·深度学习·算法·机器学习