机器学习概率论与统计学--(4)概率论：概率质量函数与概率密度函数

在上一讲中，我们学习了随机变量的概念，并知道了分布函数 F ( x ) = P ( X ≤ x ) F(x)=P(X\le x) F(x)=P(X≤x) 可以统一描述离散和连续随机变量。然而，实际工作中更常用的是另外两个函数：概率质量函数 （PMF）用于离散随机变量，概率密度函数（PDF）用于连续随机变量。它们直接给出了概率的分布情况，是理解各种分布模型的核心。

1. 概率质量函数（PMF）

1.1 定义

设 X X X 是一个离散型随机变量 ，其所有可能取值的集合称为状态空间 ，记为 X \mathcal{X} X（通常 X \mathcal{X} X 是可数集，如整数集、有限集等）。称函数
p ( x ) = P ( X = x ) , x ∈ X p(x) = P(X = x), \quad x \in X p(x)=P(X=x),x∈X

为 X X X 的概率质量函数 （Probability Mass Function, PMF）。其中 x x x 是 X X X 的所有可能取值集合。

1.2 基本性质

非负性 ： p ( x ) ≥ 0 p(x) \ge 0 p(x)≥0 对所有 x x x 成立。
归一性 ： ∑ x ∈ X p ( x ) = 1 \sum_{x \in \mathcal{X}} p(x) = 1 ∑x∈Xp(x)=1。
对于任意事件 A ⊆ X A \subseteq \mathcal{X} A⊆X，有 P ( X ∈ A ) = ∑ x ∈ A p ( x ) P(X \in A) = \sum_{x \in A} p(x) P(X∈A)=∑x∈Ap(x)。

1.3 与分布函数的关系

分布函数 F ( x ) = P ( X ≤ x ) F(x) = P(X \le x) F(x)=P(X≤x) 可以通过 PMF 累加得到：
F ( x ) = ∑ x i ≤ x p ( x i ) . F(x) = \sum_{x_i \le x} p(x_i). F(x)=xi≤x∑p(xi).

反过来，若已知 F ( x ) F(x) F(x)，则每个取值点上的概率等于该点处跳跃的高度：
p ( x i ) = F ( x i ) − F ( x i − ) = P ( X = x i ) p(x_i) = F(x_i) - F(x_i^-) = P(X = x_i) p(xi)=F(xi)−F(xi−)=P(X=xi)

其中 F ( x i − ) F(x_i^-) F(xi−) 是 F F F 在 x i x_i xi 处的左极限（ F ( x i − ) = lim ⁡ x → x i − F ( x ) F(x_i^-) = \lim_{x \to x_i^-} F(x) F(xi−)=limx→xi−F(x) ）。因为离散随机变量的分布函数是右连续的阶梯函数。

为什么跳跃高度等于概率质量？

因为
F ( x ) = P ( X ≤ x ) , F ( x − ) = P ( X < x ) . F(x) = P(X \le x), \quad F(x^-) = P(X < x). F(x)=P(X≤x),F(x−)=P(X<x).

于是
F ( x ) − F ( x − ) = P ( X ≤ x ) − P ( X < x ) = P ( X = x ) . F(x) - F(x^-) = P(X \le x) - P(X < x) = P(X = x). F(x)−F(x−)=P(X≤x)−P(X<x)=P(X=x).

所以，跳跃高度就是随机变量恰好等于该点的概率。

1.4 例子

例1 ：掷一颗公平的骰子，点数 X X X 的 PMF 为
p ( 1 ) = p ( 2 ) = ⋯ = p ( 6 ) = 1 6 p(1)=p(2)=\cdots=p(6)=\frac{1}{6} p(1)=p(2)=⋯=p(6)=61

验证： ∑ k = 1 6 1 6 = 1 \sum_{k=1}^6 \frac{1}{6}=1 ∑k=1661=1。
例2 ：一个盒子里有 3 个红球、2 个蓝球，随机摸一个球，设 X = 1 X=1 X=1 若红球， X = 0 X=0 X=0 若蓝球。则
p ( 1 ) = 3 5 , p ( 0 ) = 2 5 p(1)=\frac{3}{5},\quad p(0)=\frac{2}{5} p(1)=53,p(0)=52

1.5 图示

PMF 通常用竖线图（或柱状图）表示，每根竖线的高度等于该点的概率。

2. 概率密度函数（PDF）

2.1 定义

设 X X X 是一个连续随机变量 ，如果存在一个非负函数 f ( x ) f(x) f(x)，使得对于任意实数 a ≤ b a \le b a≤b 有
P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x , P(a \le X \le b) = \int_a^b f(x) \, dx, P(a≤X≤b)=∫abf(x)dx,

则称 f ( x ) f(x) f(x) 为 X X X 的概率密度函数（Probability Density Function, PDF）。

2.2 基本性质

非负性 ： f ( x ) ≥ 0 f(x) \ge 0 f(x)≥0 对所有 x ∈ R x \in \mathbb{R} x∈R 成立。
归一性 ： ∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty} f(x) \, dx = 1 ∫−∞∞f(x)dx=1。
对于任意区间 I I I，有 P ( X ∈ I ) = ∫ I f ( x ) d x P(X \in I) = \int_I f(x) \, dx P(X∈I)=∫If(x)dx。

2.3 与分布函数的关系

分布函数 F ( x ) = ∫ − ∞ x f ( t ) d t F(x) = \int_{-\infty}^x f(t) \, dt F(x)=∫−∞xf(t)dt，且当 f f f 连续时，有
f ( x ) = F ′ ( x ) f(x) = F'(x) f(x)=F′(x)

注意：对于连续随机变量，单点概率为零： P ( X = a ) = ∫ a a f ( x ) d x = 0 P(X = a) = \int_a^a f(x) \, dx = 0 P(X=a)=∫aaf(x)dx=0。这一点与离散情形完全不同。

2.4 密度函数的直观理解

f ( x ) f(x) f(x) 本身不是概率，而是概率的"密度"。在一个微小区间 [ x , x + d x ] [x, x+dx] [x,x+dx] 上，概率近似为 f ( x ) d x f(x) \, dx f(x)dx。因此， f ( x ) f(x) f(x) 的值可以大于 1，只要积分保持为 1 即可。

2.5 例子

例3 ：均匀分布 U ( 0 , 1 ) U(0,1) U(0,1) 的 PDF 为
f ( x ) = { 1 , 0 ≤ x ≤ 1 , 0 , 其他 . f(x) = \begin{cases} 1, & 0 \le x \le 1,\\ 0, & \text{其他}. \end{cases} f(x)={1,0,0≤x≤1,其他.

验证： ∫ 0 1 1 d x = 1 \int_0^1 1 \, dx = 1 ∫011dx=1，且 P ( 0.2 ≤ X ≤ 0.5 ) = 0.3 P(0.2 \le X \le 0.5) = 0.3 P(0.2≤X≤0.5)=0.3。
例4 ：指数分布 Exp ( λ ) \text{Exp}(\lambda) Exp(λ) 的 PDF 为
f ( x ) = λ e − λ x , x ≥ 0. f(x) = \lambda e^{-\lambda x}, \quad x \ge 0. f(x)=λe−λx,x≥0.

其积分 ∫ 0 ∞ λ e − λ x d x = 1 \int_0^\infty \lambda e^{-\lambda x} dx = 1 ∫0∞λe−λxdx=1。

3. PMF 与 PDF 的对比

特征	概率质量函数 (PMF)	概率密度函数 (PDF)
适用变量	离散随机变量	连续随机变量
定义域	可数集 X \mathcal{X} X	R \mathbb{R} R 或某个区间
函数值	概率值， ≤ 1 \le 1 ≤1	密度值，可大于 1
求和/积分	∑ p ( x ) = 1 \sum p(x) = 1 ∑p(x)=1	∫ f ( x ) d x = 1 \int f(x) dx = 1 ∫f(x)dx=1
概率计算	P ( X ∈ A ) = ∑ x ∈ A p ( x ) P(X \in A) = \sum_{x \in A} p(x) P(X∈A)=∑x∈Ap(x)	P ( X ∈ A ) = ∫ A f ( x ) d x P(X \in A) = \int_A f(x) dx P(X∈A)=∫Af(x)dx
与分布函数关系	F ( x ) = ∑ x i ≤ x p ( x i ) F(x) = \sum_{x_i \le x} p(x_i) F(x)=∑xi≤xp(xi)	F ( x ) = ∫ − ∞ x f ( t ) d t F(x) = \int_{-\infty}^x f(t) dt F(x)=∫−∞xf(t)dt
单点概率	P ( X = x ) = p ( x ) P(X = x) = p(x) P(X=x)=p(x)，可能为正	P ( X = x ) = 0 P(X = x) = 0 P(X=x)=0

4. 进一步理解

为什么连续随机变量单点概率为零？

对于连续随机变量，事件 { X = a } \{X = a\} {X=a} 对应于长度为 0 的区间，而概率由积分给出，因此自然为零。这也意味着我们只能讨论区间概率。这一性质在数学上保证了分布函数的连续性，也使得我们可以用密度函数进行微积分运算。

5. 小结

PMF 是离散随机变量的"概率分布表"，直接给出每个可能取值的概率。
PDF 是连续随机变量的"概率密度"，通过积分得到区间概率。
两者都满足非负性和归一性，且可以通过分布函数相互转化。

掌握 PMF 和 PDF 是学习具体分布（如二项分布、正态分布）的基础。

上一章 机器学习概率论与统计学--(3)概率论：随机变量

下一章 机器学习概率论与统计学--(5)概率论：离散分布