第四章:Density Estimation and GMM --- 知识点笔记
综合来源:Lecture 04 PDF(56页)、课堂笔记(CSDN)
占位图

4.1 期望与方差
期望(Expectation)
EX=∑xx⋅p(x)\mathbb{E}X = \sum_x x \cdot p(x)EX=x∑x⋅p(x)
Ef(X)=∑xf(x)p(x)\mathbb{E}f(X) = \sum_x f(x)p(x)Ef(X)=x∑f(x)p(x)
线性性 (无需独立性假设):
EaX+bY+c=aEX+bEY+c\mathbb{E}aX + bY + c = a\mathbb{E}X + b\mathbb{E}Y + cEaX+bY+c=aEX+bEY+c
条件期望
EX∣y=∑xx⋅p(x∣y)\mathbb{E}X \| y = \sum_x x \cdot p(x|y)EX∣y=x∑x⋅p(x∣y)
方差(Variance)
varX=E(X−E\[X)2]=EX2−EX2\text{var}X = \mathbb{E}(X - \\mathbb{E}\[X)^2] = \mathbb{E}X\^2 - \mathbb{E}X^2varX=E(X−E\[X)2]=EX2−EX2
性质 :varaX+b=a2varX\text{var}aX + b = a^2 \text{var}XvaraX+b=a2varX
协方差(Covariance)
covX,Y=E(X−E\[X)(Y−EY)]=EXY−EXEY\text{cov}X, Y = \mathbb{E}(X-\\mathbb{E}\[X)(Y-\mathbb{E}Y)] = \mathbb{E}XY - \mathbb{E}X\mathbb{E}YcovX,Y=E(X−E\[X)(Y−EY)]=EXY−EXEY
4.2 概率密度函数(连续)
p(x∈a,b)=∫abp(x)dxp(x \in a,b) = \int_a^b p(x)dxp(x∈a,b)=∫abp(x)dx
- p(x)≥0p(x) \geq 0p(x)≥0 且 ∫−∞∞p(x)dx=1\int_{-\infty}^{\infty} p(x)dx = 1∫−∞∞p(x)dx=1
- 累积分布函数:P(z)=p(X≤z)=∫−∞zp(x)dxP(z) = p(X \leq z) = \int_{-\infty}^z p(x)dxP(z)=p(X≤z)=∫−∞zp(x)dx
4.3 密度估计与MLE ⭐⭐⭐
密度估计
从数据 D={x1,...,xN}\mathcal{D} = \{x_1, \ldots, x_N\}D={x1,...,xN} 推断概率分布 p(X)p(X)p(X)。
- 存在无限多个可能的密度函数→选择是建模决策(归纳偏置!)
两种估计方法
| 方法 | 目标 | 学派 |
|---|---|---|
| MLE(最大似然估计) | w^MLE=argmaxwp(D∣w)\hat{w}_{MLE} = \arg\max_w p(\mathcal{D|}w)w^MLE=argmaxwp(D∣w) | 频率学派 |
| MAP(最大后验估计) | w^MAP=argmaxwp(D∣w)p(w)\hat{w}_{MAP} = \arg\max_w p(\mathcal{D}|w)p(w)w^MAP=argmaxwp(D∣w)p(w) | 贝叶斯学派 |
似然函数(IID假设下)
p(D∣w)=∏n=1Np(xn∣w)p(\mathcal{D}|w) = \prod_{n=1}^{N} p(x_n | w)p(D∣w)=n=1∏Np(xn∣w)
对数似然
lnp(D∣w)=∑n=1Nlnp(xn∣w)\ln p(\mathcal{D}|w) = \sum_{n=1}^{N} \ln p(x_n | w)lnp(D∣w)=n=1∑Nlnp(xn∣w)
为什么取log:
- 连乘→求和:更易求导
- 数值稳定性:多个0.01相乘→0,取log后稳定
- 单调变换→不改变最优解位置
MLE两步法 ⭐
- 建模(Modeling) :写出对数似然 lnp(D∣w)\ln p(\mathcal{D}|w)lnp(D∣w)
- 优化(Optimization):求导→临界点→验证最大值
4.4 伯努利分布的MLE ⭐
伯努利分布
X∼Bern(x∣μ):p(x∣μ)=μx(1−μ)1−x,x∈{0,1}X \sim \text{Bern}(x|\mu): p(x|\mu) = \mu^x (1-\mu)^{1-x}, \quad x \in \{0,1\}X∼Bern(x∣μ):p(x∣μ)=μx(1−μ)1−x,x∈{0,1}
EX=μ,varX=μ(1−μ)\mathbb{E}X = \mu, \quad \text{var}X = \mu(1-\mu)EX=μ,varX=μ(1−μ)
MLE推导
-
建模 :lnp(D∣μ)=n1lnμ+n0ln(1−μ)\ln p(\mathcal{D}|\mu) = n_1 \ln \mu + n_0 \ln(1-\mu)lnp(D∣μ)=n1lnμ+n0ln(1−μ)
- n1,n0n_1, n_0n1,n0:1和0的观测次数(充分统计量)
-
优化 :∂∂μ=n1μ−n01−μ=0\frac{\partial}{\partial\mu} = \frac{n_1}{\mu} - \frac{n_0}{1-\mu} = 0∂μ∂=μn1−1−μn0=0
μML=n1n0+n1=n1N\mu_{ML} = \frac{n_1}{n_0 + n_1} = \frac{n_1}{N}μML=n0+n1n1=Nn1
即:MLE估计的伯努利参数 = 样本中1的比例!
4.5 高斯分布的MLE ⭐⭐
高斯(正态)分布
X∼N(x∣μ,σ2):p(x∣μ,σ2)=12πσ2exp(−(x−μ)22σ2)X \sim \mathcal{N}(x|\mu, \sigma^2): p(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)X∼N(x∣μ,σ2):p(x∣μ,σ2)=2πσ2 1exp(−2σ2(x−μ)2)
EX=μ,varX=σ2\mathbb{E}X = \mu, \quad \text{var}X = \sigma^2EX=μ,varX=σ2
MLE推导结果
μML=1N∑n=1Nxn(样本均值)\mu_{ML} = \frac{1}{N}\sum_{n=1}^{N} x_n \quad \text{(样本均值)}μML=N1n=1∑Nxn(样本均值)
KaTeX parse error: Undefined control sequence: \* at position 75: ...2 \quad \text{(\̲*̲有偏\*!)}
偏差分析 ⭐
- EμML=μ\mathbb{E}\\mu_{ML} = \muEμML=μ → 无偏(Unbiased)
- EσML2=N−1Nσ2≠σ2\mathbb{E}\\sigma\^2_{ML} = \frac{N-1}{N}\sigma^2 \neq \sigma^2EσML2=NN−1σ2=σ2 → 有偏(Biased)!
Bias(θ^)=Eθ\^−θ\text{Bias}(\hat{\theta}) = \mathbb{E}\\hat{\\theta} - \thetaBias(θ^)=Eθ\^−θ
- 无偏估计量:Eθ\^=θ\mathbb{E}\\hat{\\theta} = \thetaEθ\^=θ | 有偏:Eθ\^≠θ\mathbb{E}\\hat{\\theta} \neq \thetaEθ\^=θ
- 无偏方差估计 :σ^unbiased2=1N−1∑(xn−xˉ)2\hat{\sigma}^2_{unbiased} = \frac{1}{N-1}\sum(x_n - \bar{x})^2σ^unbiased2=N−11∑(xn−xˉ)2(分母N-1)
4.6 多元高斯分布
p(x∣μ,Σ)=1(2π)D/2∣Σ∣1/2exp(−12(x−μ)TΣ−1(x−μ))p(\mathbf{x}|\mu, \Sigma) = \frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\mu)^T \Sigma^{-1}(\mathbf{x}-\mu)\right)p(x∣μ,Σ)=(2π)D/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
- μ∈RD\mu \in \mathbb{R}^Dμ∈RD:均值向量
- Σ∈RD×D\Sigma \in \mathbb{R}^{D \times D}Σ∈RD×D:协方差矩阵
4.7 高斯混合模型(GMM)⭐⭐
定义
p(x∣π,μk,Σk)=∑k=1Kπk⋅N(x∣μk,Σk)p(\mathbf{x} | \pi, \mu_k, \Sigma_k) = \sum_{k=1}^{K} \pi_k \cdot \mathcal{N}(\mathbf{x} | \mu_k, \Sigma_k)p(x∣π,μk,Σk)=k=1∑Kπk⋅N(x∣μk,Σk)
- ∑k=1Kπk=1\sum_{k=1}^{K} \pi_k = 1∑k=1Kπk=1:混合权重(簇的概率分布)
- 每个分量是一个高斯分布
GMM vs K-Means ⭐
| 特性 | K-Means | GMM |
|---|---|---|
| 聚类类型 | 硬聚类 | 软聚类(概率归属) |
| 簇形状 | 球形 | 任意椭圆(可拉伸、旋转) |
| 输出 | 标签 | 标签 + 归属概率 |
| 优化 | Lloyd's | EM算法 |
| 数学本质 | 距离最小化 | 概率密度最大化 |
GMM = 隐变量模型
p(x,z)⏟联合概率=p(z)⏟πz⋅p(x∣z)⏟N(x∣μz,Σz)\underbrace{p(\mathbf{x}, z)}{\text{联合概率}} = \underbrace{p(z)}{\pi_z} \cdot \underbrace{p(\mathbf{x}|z)}_{\mathcal{N}(\mathbf{x}|\mu_z,\Sigma_z)}联合概率 p(x,z)=πz p(z)⋅N(x∣μz,Σz) p(x∣z)
p(x)=∑k=1Kp(x,z=k)=∑k=1KN(x∣μk,Σk)πkp(\mathbf{x}) = \sum_{k=1}^{K} p(\mathbf{x}, z=k) = \sum_{k=1}^{K} \mathcal{N}(\mathbf{x}|\mu_k, \Sigma_k) \pi_kp(x)=k=1∑Kp(x,z=k)=k=1∑KN(x∣μk,Σk)πk
- zzz:隐变量(latent variable)→"来自哪个簇"
- GMM是生成模型(可从模型中采样数据)
后验概率(归属概率)
p(z=k∣x)=N(x∣μk,Σk)πk∑k′=1KN(x∣μk′,Σk′)πk′p(z=k | \mathbf{x}) = \frac{\mathcal{N}(\mathbf{x}|\mu_k, \Sigma_k)\pi_k}{\sum_{k'=1}^{K} \mathcal{N}(\mathbf{x}|\mu_{k'}, \Sigma_{k'})\pi_{k'}}p(z=k∣x)=∑k′=1KN(x∣μk′,Σk′)πk′N(x∣μk,Σk)πk
4.8 EM算法 ⭐⭐
循环依赖问题
- 知道参数→可算后验(簇分配)
- 知道簇分配→可估参数
- →循环依赖!→EM算法解决
EM算法框架
- 初始化参数(通常用K-means + 密度估计)
- E-Step(期望步) :用当前参数计算后验 γnk=p(zn=k∣xn)\gamma_{nk} = p(z_n=k|\mathbf{x}_n)γnk=p(zn=k∣xn)
- M-Step(最大化步):用软标签最大化期望对数似然→更新参数
- 重复1-2直到收敛
GMM的EM公式
E-Step :γnk=N(xn∣μk,Σk)πk∑k′N(xn∣μk′,Σk′)πk′\gamma_{nk} = \frac{\mathcal{N}(\mathbf{x}n|\mu_k,\Sigma_k)\pi_k}{\sum{k'} \mathcal{N}(\mathbf{x}n|\mu{k'},\Sigma_{k'})\pi_{k'}}γnk=∑k′N(xn∣μk′,Σk′)πk′N(xn∣μk,Σk)πk
M-Step :
Nk=∑n=1Nγnk,πk=NkNN_k = \sum_{n=1}^{N} \gamma_{nk}, \quad \pi_k = \frac{N_k}{N}Nk=n=1∑Nγnk,πk=NNk
μk=1Nk∑n=1Nγnkxn\mu_k = \frac{1}{N_k}\sum_{n=1}^{N} \gamma_{nk} \mathbf{x}_nμk=Nk1n=1∑Nγnkxn
Σk=1Nk∑n=1Nγnk(xn−μk)(xn−μk)T\Sigma_k = \frac{1}{N_k}\sum_{n=1}^{N} \gamma_{nk}(\mathbf{x}_n - \mu_k)(\mathbf{x}_n - \mu_k)^TΣk=Nk1n=1∑Nγnk(xn−μk)(xn−μk)T
笔记中的图片索引
| 序号 | 图片内容描述 | 来源位置 |
|---|---|---|
| 图1 | 高斯分布密度函数曲线 | Lecture 04 第26页 |
| 图2 | GMM三分量示意图 | Lecture 04 第40-41页 |
| 图3 | 生成模型图模型(z→x) | Lecture 04 第44页 |
| 图4 | EM算法循环依赖示意图 | Lecture 04 第48页 |
| 图5 | GMM vs K-Means对比 | CSDN笔记 |
笔记整理时间:2026年6月28日