第七章:Linear Regression (3) --- Probabilistic View --- 知识点笔记
综合来源:Lecture 07 PDF(16页)、课堂笔记(CSDN)
占位图

7.1 最小二乘 = 最大似然 ⭐⭐⭐
核心问题
最小二乘误差函数仅仅是代数上的便利...还是有概率论上的合理性?
答案:两者等价!
加性高斯噪声假设(Additive Gaussian Noise)
t=y(x,w)+ϵ,ϵ∼N(0,σ2)t = y(\mathbf{x}, \mathbf{w}) + \epsilon, \quad \epsilon \sim \mathcal{N}(0, \sigma^2)t=y(x,w)+ϵ,ϵ∼N(0,σ2)
- y(x,w)y(\mathbf{x},\mathbf{w})y(x,w):确定性信号
- ϵ\epsilonϵ:零均值高斯随机噪声(IID跨数据点)
- → t∣x∼N(y(x,w),σ2)t|\mathbf{x} \sim \mathcal{N}(y(\mathbf{x},\mathbf{w}), \sigma^2)t∣x∼N(y(x,w),σ2)
似然函数
p(t∣X,w,σ2)=∏n=1NN(tn∣wTϕ(xn),σ2)p(\mathbf{t}|\mathbb{X}, \mathbf{w}, \sigma^2) = \prod_{n=1}^{N} \mathcal{N}(t_n | \mathbf{w}^T\phi(\mathbf{x}_n), \sigma^2)p(t∣X,w,σ2)=n=1∏NN(tn∣wTϕ(xn),σ2)
对数似然
lnp(t∣X,w,σ2)=−N2ln(2πσ2)−12σ2∑n=1N(tn−wTϕ(xn))2\ln p(\mathbf{t}|\mathbb{X}, \mathbf{w}, \sigma^2) = -\frac{N}{2}\ln(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{n=1}^{N}(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2lnp(t∣X,w,σ2)=−2Nln(2πσ2)−2σ21n=1∑N(tn−wTϕ(xn))2
=−N2ln(2π)−N2lnσ2−1σ2⋅ED(w)= -\frac{N}{2}\ln(2\pi) - \frac{N}{2}\ln\sigma^2 - \frac{1}{\sigma^2} \cdot \mathbf{E}_D(\mathbf{w})=−2Nln(2π)−2Nlnσ2−σ21⋅ED(w)
其中 ED(w)=12∑n=1N(tn−wTϕ(xn))2\mathbf{E}D(\mathbf{w}) = \frac{1}{2}\sum{n=1}^{N}(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2ED(w)=21∑n=1N(tn−wTϕ(xn))2
关键结论 ⭐
最大化对数似然(关于w\mathbf{w}w)= 最小化平方和误差!
- 前两项与w\mathbf{w}w无关(常数)
- 最大化 → 相当于最小化 1σ2ED(w)\frac{1}{\sigma^2}\mathbf{E}_D(\mathbf{w})σ21ED(w) → 即最小化ED(w)\mathbf{E}_D(\mathbf{w})ED(w)
- MLE解 = 最小二乘解(在高斯噪声假设下)
7.2 噪声模型 ↔ 误差函数 ⭐⭐
| 噪声分布 | 密度函数 | −logp(ϵ)-\log p(\epsilon)−logp(ϵ) | 对应误差 |
|---|---|---|---|
| 高斯 N(0,σ2)\mathcal{N}(0,\sigma^2)N(0,σ2) | 12πσe−ϵ2/2σ2\frac{1}{\sqrt{2\pi}\sigma}e^{-\epsilon^2/2\sigma^2}2π σ1e−ϵ2/2σ2 | ϵ22σ2\frac{\epsilon^2}{2\sigma^2}2σ2ϵ2 + const | 平方和误差(MSE) |
| 拉普拉斯 Laplace(0,b)(0,b)(0,b) | 12be−∣ϵ∣/b\frac{1}{2b}e^{-|\epsilon|/b}2b1e−∣ϵ∣/b | ∣ϵ∣b\frac{|\epsilon|}{b}b∣ϵ∣ + const | 绝对误差(MAE) |
结论
你选择的误差函数 = 你对数据噪声分布的隐含假设!
- 使用MSE → 隐含假设噪声是高斯分布(对大误差惩罚重)
- 使用MAE → 隐含假设噪声是拉普拉斯分布(对异常值更鲁棒)
7.3 MLE推导正规方程
对w\mathbf{w}w求梯度:
∇wlnp=−1σ2∇wED(w)=1σ2∑n=1N(tn−wTϕ(xn))ϕ(xn)=0\nabla_{\mathbf{w}} \ln p = -\frac{1}{\sigma^2}\nabla_{\mathbf{w}}\mathbf{E}D(\mathbf{w}) = \frac{1}{\sigma^2}\sum{n=1}^{N}(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))\phi(\mathbf{x}_n) = 0∇wlnp=−σ21∇wED(w)=σ21n=1∑N(tn−wTϕ(xn))ϕ(xn)=0
∑ntnϕ(xn)=∑nϕ(xn)ϕ(xn)Tw\sum_n t_n \phi(\mathbf{x}_n) = \sum_n \phi(\mathbf{x}_n)\phi(\mathbf{x}_n)^T \mathbf{w}n∑tnϕ(xn)=n∑ϕ(xn)ϕ(xn)Tw
矩阵形式:
Φ(X)Tt=Φ(X)TΦ(X)wML\Phi(\mathbb{X})^T\mathbf{t} = \Phi(\mathbb{X})^T\Phi(\mathbb{X})\mathbf{w}_{ML}Φ(X)Tt=Φ(X)TΦ(X)wML
wML=(ΦTΦ)−1ΦTt\mathbf{w}_{ML} = (\Phi^T\Phi)^{-1}\Phi^T\mathbf{t}wML=(ΦTΦ)−1ΦTt
与第五章正规方程完全一致!Φ\PhiΦ = 基函数变换后的设计矩阵。
笔记中的图片索引
| 序号 | 图片内容描述 | 来源位置 |
|---|---|---|
| 图1 | 高斯噪声与拉普拉斯噪声分布对比 | Lecture 07 第15页 |
| 图2 | 噪声模型→误差函数的对应关系 | Lecture 07 第15页 |
笔记整理时间:2026年6月28日