机器学习概率论与统计学--(4)概率论:概率质量函数与概率密度函数

在上一讲中,我们学习了随机变量的概念,并知道了分布函数 F ( x ) = P ( X ≤ x ) F(x)=P(X\le x) F(x)=P(X≤x) 可以统一描述离散和连续随机变量。然而,实际工作中更常用的是另外两个函数:概率质量函数 (PMF)用于离散随机变量,概率密度函数(PDF)用于连续随机变量。它们直接给出了概率的分布情况,是理解各种分布模型的核心。


1. 概率质量函数(PMF)

1.1 定义

设 X X X 是一个离散型随机变量 ,其所有可能取值的集合称为状态空间 ,记为 X \mathcal{X} X(通常 X \mathcal{X} X 是可数集,如整数集、有限集等)。 称函数
p ( x ) = P ( X = x ) , x ∈ X p(x) = P(X = x), \quad x \in X p(x)=P(X=x),x∈X

为 X X X 的概率质量函数 (Probability Mass Function, PMF)。其中 x x x 是 X X X 的所有可能取值集合。

1.2 基本性质

  1. 非负性 : p ( x ) ≥ 0 p(x) \ge 0 p(x)≥0 对所有 x x x 成立。
  2. 归一性 : ∑ x ∈ X p ( x ) = 1 \sum_{x \in \mathcal{X}} p(x) = 1 ∑x∈Xp(x)=1。
  3. 对于任意事件 A ⊆ X A \subseteq \mathcal{X} A⊆X,有 P ( X ∈ A ) = ∑ x ∈ A p ( x ) P(X \in A) = \sum_{x \in A} p(x) P(X∈A)=∑x∈Ap(x)。

1.3 与分布函数的关系

分布函数 F ( x ) = P ( X ≤ x ) F(x) = P(X \le x) F(x)=P(X≤x) 可以通过 PMF 累加得到:
F ( x ) = ∑ x i ≤ x p ( x i ) . F(x) = \sum_{x_i \le x} p(x_i). F(x)=xi≤x∑p(xi).

反过来,若已知 F ( x ) F(x) F(x),则每个取值点上的概率等于该点处跳跃的高度:
p ( x i ) = F ( x i ) − F ( x i − ) = P ( X = x i ) p(x_i) = F(x_i) - F(x_i^-) = P(X = x_i) p(xi)=F(xi)−F(xi−)=P(X=xi)

其中 F ( x i − ) F(x_i^-) F(xi−) 是 F F F 在 x i x_i xi 处的左极限( F ( x i − ) = lim ⁡ x → x i − F ( x ) F(x_i^-) = \lim_{x \to x_i^-} F(x) F(xi−)=limx→xi−F(x) )。因为离散随机变量的分布函数是右连续的阶梯函数。

为什么跳跃高度等于概率质量?

因为
F ( x ) = P ( X ≤ x ) , F ( x − ) = P ( X < x ) . F(x) = P(X \le x), \quad F(x^-) = P(X < x). F(x)=P(X≤x),F(x−)=P(X<x).

于是
F ( x ) − F ( x − ) = P ( X ≤ x ) − P ( X < x ) = P ( X = x ) . F(x) - F(x^-) = P(X \le x) - P(X < x) = P(X = x). F(x)−F(x−)=P(X≤x)−P(X<x)=P(X=x).

所以,跳跃高度就是随机变量恰好等于该点的概率。

1.4 例子

例1 :掷一颗公平的骰子,点数 X X X 的 PMF 为
p ( 1 ) = p ( 2 ) = ⋯ = p ( 6 ) = 1 6 p(1)=p(2)=\cdots=p(6)=\frac{1}{6} p(1)=p(2)=⋯=p(6)=61

验证: ∑ k = 1 6 1 6 = 1 \sum_{k=1}^6 \frac{1}{6}=1 ∑k=1661=1。
例2 :一个盒子里有 3 个红球、2 个蓝球,随机摸一个球,设 X = 1 X=1 X=1 若红球, X = 0 X=0 X=0 若蓝球。则
p ( 1 ) = 3 5 , p ( 0 ) = 2 5 p(1)=\frac{3}{5},\quad p(0)=\frac{2}{5} p(1)=53,p(0)=52

1.5 图示

PMF 通常用竖线图(或柱状图)表示,每根竖线的高度等于该点的概率。


2. 概率密度函数(PDF)

2.1 定义

设 X X X 是一个连续随机变量 ,如果存在一个非负函数 f ( x ) f(x) f(x),使得对于任意实数 a ≤ b a \le b a≤b 有
P ( a ≤ X ≤ b ) = ∫ a b f ( x )   d x , P(a \le X \le b) = \int_a^b f(x) \, dx, P(a≤X≤b)=∫abf(x)dx,

则称 f ( x ) f(x) f(x) 为 X X X 的概率密度函数(Probability Density Function, PDF)。

2.2 基本性质

  1. 非负性 : f ( x ) ≥ 0 f(x) \ge 0 f(x)≥0 对所有 x ∈ R x \in \mathbb{R} x∈R 成立。
  2. 归一性 : ∫ − ∞ ∞ f ( x )   d x = 1 \int_{-\infty}^{\infty} f(x) \, dx = 1 ∫−∞∞f(x)dx=1。
  3. 对于任意区间 I I I,有 P ( X ∈ I ) = ∫ I f ( x )   d x P(X \in I) = \int_I f(x) \, dx P(X∈I)=∫If(x)dx。

2.3 与分布函数的关系

分布函数 F ( x ) = ∫ − ∞ x f ( t )   d t F(x) = \int_{-\infty}^x f(t) \, dt F(x)=∫−∞xf(t)dt,且当 f f f 连续时,有
f ( x ) = F ′ ( x ) f(x) = F'(x) f(x)=F′(x)

注意:对于连续随机变量,单点概率为零: P ( X = a ) = ∫ a a f ( x )   d x = 0 P(X = a) = \int_a^a f(x) \, dx = 0 P(X=a)=∫aaf(x)dx=0。这一点与离散情形完全不同。

2.4 密度函数的直观理解

f ( x ) f(x) f(x) 本身不是概率,而是概率的"密度"。在一个微小区间 x , x + d x x, x+dx x,x+dx 上,概率近似为 f ( x )   d x f(x) \, dx f(x)dx。因此, f ( x ) f(x) f(x) 的值可以大于 1,只要积分保持为 1 即可。

2.5 例子

例3 :均匀分布 U ( 0 , 1 ) U(0,1) U(0,1) 的 PDF 为
f ( x ) = { 1 , 0 ≤ x ≤ 1 , 0 , 其他 . f(x) = \begin{cases} 1, & 0 \le x \le 1,\\ 0, & \text{其他}. \end{cases} f(x)={1,0,0≤x≤1,其他.

验证: ∫ 0 1 1   d x = 1 \int_0^1 1 \, dx = 1 ∫011dx=1,且 P ( 0.2 ≤ X ≤ 0.5 ) = 0.3 P(0.2 \le X \le 0.5) = 0.3 P(0.2≤X≤0.5)=0.3。
例4 :指数分布 Exp ( λ ) \text{Exp}(\lambda) Exp(λ) 的 PDF 为
f ( x ) = λ e − λ x , x ≥ 0. f(x) = \lambda e^{-\lambda x}, \quad x \ge 0. f(x)=λe−λx,x≥0.

其积分 ∫ 0 ∞ λ e − λ x d x = 1 \int_0^\infty \lambda e^{-\lambda x} dx = 1 ∫0∞λe−λxdx=1。


3. PMF 与 PDF 的对比

特征 概率质量函数 (PMF) 概率密度函数 (PDF)
适用变量 离散随机变量 连续随机变量
定义域 可数集 X \mathcal{X} X R \mathbb{R} R 或某个区间
函数值 概率值, ≤ 1 \le 1 ≤1 密度值,可大于 1
求和/积分 ∑ p ( x ) = 1 \sum p(x) = 1 ∑p(x)=1 ∫ f ( x ) d x = 1 \int f(x) dx = 1 ∫f(x)dx=1
概率计算 P ( X ∈ A ) = ∑ x ∈ A p ( x ) P(X \in A) = \sum_{x \in A} p(x) P(X∈A)=∑x∈Ap(x) P ( X ∈ A ) = ∫ A f ( x ) d x P(X \in A) = \int_A f(x) dx P(X∈A)=∫Af(x)dx
与分布函数关系 F ( x ) = ∑ x i ≤ x p ( x i ) F(x) = \sum_{x_i \le x} p(x_i) F(x)=∑xi≤xp(xi) F ( x ) = ∫ − ∞ x f ( t ) d t F(x) = \int_{-\infty}^x f(t) dt F(x)=∫−∞xf(t)dt
单点概率 P ( X = x ) = p ( x ) P(X = x) = p(x) P(X=x)=p(x),可能为正 P ( X = x ) = 0 P(X = x) = 0 P(X=x)=0

4. 进一步理解

为什么连续随机变量单点概率为零?

对于连续随机变量,事件 { X = a } \{X = a\} {X=a} 对应于长度为 0 的区间,而概率由积分给出,因此自然为零。这也意味着我们只能讨论区间概率。这一性质在数学上保证了分布函数的连续性,也使得我们可以用密度函数进行微积分运算。


5. 小结

  • PMF 是离散随机变量的"概率分布表",直接给出每个可能取值的概率。
  • PDF 是连续随机变量的"概率密度",通过积分得到区间概率。
  • 两者都满足非负性和归一性,且可以通过分布函数相互转化。

掌握 PMF 和 PDF 是学习具体分布(如二项分布、正态分布)的基础。

上一章 机器学习概率论与统计学--(3)概率论:随机变量

下一章 机器学习概率论与统计学--(5)概率论:离散分布

相关推荐
wubba lubba dub dub75015 小时前
第四十九周学习周报
人工智能·算法·机器学习
装不满的克莱因瓶15 小时前
学习使用 Python 机器学习工具 sklearn
人工智能·python·学习·机器学习·ai·agent·智能体
Omics Pro16 小时前
3种蛋白结构输入方式!已申报欧洲发明专利
数据库·人工智能·python·机器学习·plotly
Omics Pro17 小时前
「自兹以往」动物肠道微生物组
数据库·人工智能·机器学习·语言模型·自然语言处理
oddsand117 小时前
pgvector 三大相似度算法
人工智能·算法·机器学习
落羽的落羽19 小时前
【项目】JsonRpc框架——开发实现1(细节功能、字段定义、抽象层、具象层)
linux·服务器·网络·c++·人工智能·算法·机器学习
keykey6.20 小时前
卷积神经网络(CNN):让AI学会“看“
开发语言·人工智能·深度学习·机器学习
升鲜宝供应链及收银系统源代码服务20 小时前
升鲜宝AI助手 E-R 图与操作说明书(三)---升鲜宝生鲜配送供应链管理系统源代码服务
大数据·人工智能·机器学习·生鲜供应链源代码·供应链源代码出售·生鲜配送源代码服务·门店连锁系统源代码
AI科技星21 小时前
精细结构常数α的多维度物理比值特性及空间螺旋模型研究
人工智能·线性代数·架构·概率论·学习方法
keykey6.21 小时前
用 PyTorch 训练图像分类器:完整实战
开发语言·人工智能·深度学习·机器学习