机器学习与模式识别第四章概率论与软聚类EM 考点压缩

第四章：Density Estimation and GMM --- 知识点笔记

综合来源：Lecture 04 PDF（56页）、课堂笔记（CSDN）

占位图

4.1 期望与方差

期望（Expectation）

E $X$ =∑xx⋅p(x)\mathbb{E} $X$ = \sum_x x \cdot p(x)E $X$ =x∑x⋅p(x)

E $f(X)$ =∑xf(x)p(x)\mathbb{E} $f(X)$ = \sum_x f(x)p(x)E $f(X)$ =x∑f(x)p(x)

线性性 （无需独立性假设）：

E $aX+bY+c$ =aE $X$ +bE $Y$ +c\mathbb{E} $aX + bY + c$ = a\mathbb{E} $X$ + b\mathbb{E} $Y$ + cE $aX+bY+c$ =aE $X$ +bE $Y$ +c

条件期望

E $X∣y$ =∑xx⋅p(x∣y)\mathbb{E} $X \| y$ = \sum_x x \cdot p(x|y)E $X∣y$ =x∑x⋅p(x∣y)

方差（Variance）

var $X$ =E $(X−E\[X$ )2]=E $X2$ −E $X$ 2\text{var} $X$ = \mathbb{E} $(X - \\mathbb{E}\[X$ )^2] = \mathbb{E} $X\^2$ - \mathbb{E} $X$ ^2var $X$ =E $(X−E\[X$ )2]=E $X2$ −E $X$ 2

性质：var $aX+b$ =a2var $X$ \text{var} $aX + b$ = a^2 \text{var} $X$ var $aX+b$ =a2var $X$

协方差（Covariance）

cov $X,Y$ =E $(X−E\[X$ )(Y−E $Y$ )]=E $XY$ −E $X$ E $Y$ \text{cov} $X, Y$ = \mathbb{E} $(X-\\mathbb{E}\[X$ )(Y-\mathbb{E} $Y$ )] = \mathbb{E} $XY$ - \mathbb{E} $X$ \mathbb{E} $Y$ cov $X,Y$ =E $(X−E\[X$ )(Y−E $Y$ )]=E $XY$ −E $X$ E $Y$

4.2 概率密度函数（连续）

p(x∈ $a,b$ )=∫abp(x)dxp(x \in $a,b$ ) = \int_a^b p(x)dxp(x∈ $a,b$ )=∫abp(x)dx

p(x)≥0p(x) \geq 0p(x)≥0 且 ∫−∞∞p(x)dx=1\int_{-\infty}^{\infty} p(x)dx = 1∫−∞∞p(x)dx=1
累积分布函数：P(z)=p(X≤z)=∫−∞zp(x)dxP(z) = p(X \leq z) = \int_{-\infty}^z p(x)dxP(z)=p(X≤z)=∫−∞zp(x)dx

4.3 密度估计与MLE ⭐⭐⭐

密度估计

从数据 D={x1,...,xN}\mathcal{D} = \{x_1, \ldots, x_N\}D={x1,...,xN} 推断概率分布 p(X)p(X)p(X)。

存在无限多个可能的密度函数→选择是建模决策（归纳偏置！）

两种估计方法

方法	目标	学派
MLE（最大似然估计）	w^MLE=arg⁡max⁡wp(D∣w)\hat{w}_{MLE} = \arg\max_w p(\mathcal{D\|}w)w^MLE=argmaxwp(D∣w)	频率学派
MAP（最大后验估计）	w^MAP=arg⁡max⁡wp(D∣w)p(w)\hat{w}_{MAP} = \arg\max_w p(\mathcal{D}\|w)p(w)w^MAP=argmaxwp(D∣w)p(w)	贝叶斯学派

似然函数（IID假设下）

p(D∣w)=∏n=1Np(xn∣w)p(\mathcal{D}|w) = \prod_{n=1}^{N} p(x_n | w)p(D∣w)=n=1∏Np(xn∣w)

对数似然

ln⁡p(D∣w)=∑n=1Nln⁡p(xn∣w)\ln p(\mathcal{D}|w) = \sum_{n=1}^{N} \ln p(x_n | w)lnp(D∣w)=n=1∑Nlnp(xn∣w)

为什么取log：

连乘→求和：更易求导
数值稳定性：多个0.01相乘→0，取log后稳定
单调变换→不改变最优解位置

MLE两步法 ⭐

建模（Modeling） ：写出对数似然 ln⁡p(D∣w)\ln p(\mathcal{D}|w)lnp(D∣w)
优化（Optimization）：求导→临界点→验证最大值

4.4 伯努利分布的MLE ⭐

伯努利分布

X∼Bern(x∣μ):p(x∣μ)=μx(1−μ)1−x,x∈{0,1}X \sim \text{Bern}(x|\mu): p(x|\mu) = \mu^x (1-\mu)^{1-x}, \quad x \in \{0,1\}X∼Bern(x∣μ):p(x∣μ)=μx(1−μ)1−x,x∈{0,1}

E $X$ =μ,var $X$ =μ(1−μ)\mathbb{E} $X$ = \mu, \quad \text{var} $X$ = \mu(1-\mu)E $X$ =μ,var $X$ =μ(1−μ)

MLE推导

建模：ln⁡p(D∣μ)=n1ln⁡μ+n0ln⁡(1−μ)\ln p(\mathcal{D}|\mu) = n_1 \ln \mu + n_0 \ln(1-\mu)lnp(D∣μ)=n1lnμ+n0ln(1−μ)
- n1,n0n_1, n_0n1,n0：1和0的观测次数（充分统计量）
优化：∂∂μ=n1μ−n01−μ=0\frac{\partial}{\partial\mu} = \frac{n_1}{\mu} - \frac{n_0}{1-\mu} = 0∂μ∂=μn1−1−μn0=0

μML=n1n0+n1=n1N\mu_{ML} = \frac{n_1}{n_0 + n_1} = \frac{n_1}{N}μML=n0+n1n1=Nn1

即：MLE估计的伯努利参数 = 样本中1的比例！

4.5 高斯分布的MLE ⭐⭐

高斯（正态）分布

X∼N(x∣μ,σ2):p(x∣μ,σ2)=12πσ2exp⁡(−(x−μ)22σ2)X \sim \mathcal{N}(x|\mu, \sigma^2): p(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)X∼N(x∣μ,σ2):p(x∣μ,σ2)=2πσ2 1exp(−2σ2(x−μ)2)

E $X$ =μ,var $X$ =σ2\mathbb{E} $X$ = \mu, \quad \text{var} $X$ = \sigma^2E $X$ =μ,var $X$ =σ2

MLE推导结果

μML=1N∑n=1Nxn（样本均值）\mu_{ML} = \frac{1}{N}\sum_{n=1}^{N} x_n \quad \text{（样本均值）}μML=N1n=1∑Nxn（样本均值）

KaTeX parse error: Undefined control sequence: \* at position 75: ...2 \quad \text{（\̲*̲有偏\*！）}

偏差分析 ⭐

E $μML$ =μ\mathbb{E} $\\mu_{ML}$ = \muE $μML$ =μ → 无偏（Unbiased）
E $σML2$ =N−1Nσ2≠σ2\mathbb{E} $\\sigma\^2_{ML}$ = \frac{N-1}{N}\sigma^2 \neq \sigma^2E $σML2$ =NN−1σ2=σ2 → 有偏（Biased）！

Bias(θ^)=E $θ\^$ −θ\text{Bias}(\hat{\theta}) = \mathbb{E} $\\hat{\\theta}$ - \thetaBias(θ^)=E $θ\^$ −θ

无偏估计量：E $θ\^$ =θ\mathbb{E} $\\hat{\\theta}$ = \thetaE $θ\^$ =θ | 有偏：E $θ\^$ ≠θ\mathbb{E} $\\hat{\\theta}$ \neq \thetaE $θ\^$ =θ
无偏方差估计 ：σ^unbiased2=1N−1∑(xn−xˉ)2\hat{\sigma}^2_{unbiased} = \frac{1}{N-1}\sum(x_n - \bar{x})^2σ^unbiased2=N−11∑(xn−xˉ)2（分母N-1）

4.6 多元高斯分布

p(x∣μ,Σ)=1(2π)D/2∣Σ∣1/2exp⁡(−12(x−μ)TΣ−1(x−μ))p(\mathbf{x}|\mu, \Sigma) = \frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\mu)^T \Sigma^{-1}(\mathbf{x}-\mu)\right)p(x∣μ,Σ)=(2π)D/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))

μ∈RD\mu \in \mathbb{R}^Dμ∈RD：均值向量
Σ∈RD×D\Sigma \in \mathbb{R}^{D \times D}Σ∈RD×D：协方差矩阵

4.7 高斯混合模型（GMM）⭐⭐

定义

p(x∣π,μk,Σk)=∑k=1Kπk⋅N(x∣μk,Σk)p(\mathbf{x} | \pi, \mu_k, \Sigma_k) = \sum_{k=1}^{K} \pi_k \cdot \mathcal{N}(\mathbf{x} | \mu_k, \Sigma_k)p(x∣π,μk,Σk)=k=1∑Kπk⋅N(x∣μk,Σk)

∑k=1Kπk=1\sum_{k=1}^{K} \pi_k = 1∑k=1Kπk=1：混合权重（簇的概率分布）
每个分量是一个高斯分布

GMM vs K-Means ⭐

特性	K-Means	GMM
聚类类型	硬聚类	软聚类（概率归属）
簇形状	球形	任意椭圆（可拉伸、旋转）
输出	标签	标签 + 归属概率
优化	Lloyd's	EM算法
数学本质	距离最小化	概率密度最大化

GMM = 隐变量模型

p(x,z)⏟联合概率=p(z)⏟πz⋅p(x∣z)⏟N(x∣μz,Σz)\underbrace{p(\mathbf{x}, z)}{\text{联合概率}} = \underbrace{p(z)}{\pi_z} \cdot \underbrace{p(\mathbf{x}|z)}_{\mathcal{N}(\mathbf{x}|\mu_z,\Sigma_z)}联合概率 p(x,z)=πz p(z)⋅N(x∣μz,Σz) p(x∣z)

p(x)=∑k=1Kp(x,z=k)=∑k=1KN(x∣μk,Σk)πkp(\mathbf{x}) = \sum_{k=1}^{K} p(\mathbf{x}, z=k) = \sum_{k=1}^{K} \mathcal{N}(\mathbf{x}|\mu_k, \Sigma_k) \pi_kp(x)=k=1∑Kp(x,z=k)=k=1∑KN(x∣μk,Σk)πk

zzz：隐变量（latent variable）→"来自哪个簇"
GMM是生成模型（可从模型中采样数据）

后验概率（归属概率）

p(z=k∣x)=N(x∣μk,Σk)πk∑k′=1KN(x∣μk′,Σk′)πk′p(z=k | \mathbf{x}) = \frac{\mathcal{N}(\mathbf{x}|\mu_k, \Sigma_k)\pi_k}{\sum_{k'=1}^{K} \mathcal{N}(\mathbf{x}|\mu_{k'}, \Sigma_{k'})\pi_{k'}}p(z=k∣x)=∑k′=1KN(x∣μk′,Σk′)πk′N(x∣μk,Σk)πk

4.8 EM算法 ⭐⭐

循环依赖问题

知道参数→可算后验（簇分配）
知道簇分配→可估参数
→循环依赖！→EM算法解决

EM算法框架

初始化参数（通常用K-means + 密度估计）
E-Step（期望步） ：用当前参数计算后验 γnk=p(zn=k∣xn)\gamma_{nk} = p(z_n=k|\mathbf{x}_n)γnk=p(zn=k∣xn)
M-Step（最大化步）：用软标签最大化期望对数似然→更新参数
重复1-2直到收敛

GMM的EM公式

E-Step ：γnk=N(xn∣μk,Σk)πk∑k′N(xn∣μk′,Σk′)πk′\gamma_{nk} = \frac{\mathcal{N}(\mathbf{x}n|\mu_k,\Sigma_k)\pi_k}{\sum{k'} \mathcal{N}(\mathbf{x}n|\mu{k'},\Sigma_{k'})\pi_{k'}}γnk=∑k′N(xn∣μk′,Σk′)πk′N(xn∣μk,Σk)πk

M-Step ：

Nk=∑n=1Nγnk,πk=NkNN_k = \sum_{n=1}^{N} \gamma_{nk}, \quad \pi_k = \frac{N_k}{N}Nk=n=1∑Nγnk,πk=NNk

μk=1Nk∑n=1Nγnkxn\mu_k = \frac{1}{N_k}\sum_{n=1}^{N} \gamma_{nk} \mathbf{x}_nμk=Nk1n=1∑Nγnkxn

Σk=1Nk∑n=1Nγnk(xn−μk)(xn−μk)T\Sigma_k = \frac{1}{N_k}\sum_{n=1}^{N} \gamma_{nk}(\mathbf{x}_n - \mu_k)(\mathbf{x}_n - \mu_k)^TΣk=Nk1n=1∑Nγnk(xn−μk)(xn−μk)T

笔记中的图片索引

序号	图片内容描述	来源位置
图1	高斯分布密度函数曲线	Lecture 04 第26页
图2	GMM三分量示意图	Lecture 04 第40-41页
图3	生成模型图模型（z→x）	Lecture 04 第44页
图4	EM算法循环依赖示意图	Lecture 04 第48页
图5	GMM vs K-Means对比	CSDN笔记

笔记整理时间：2026年6月28日

机器学习与模式识别 第四章 概率论与软聚类EM 考点压缩