机器学习与模式识别 第七章 线性回归3 考点压缩

第七章:Linear Regression (3) --- Probabilistic View --- 知识点笔记

综合来源:Lecture 07 PDF(16页)、课堂笔记(CSDN)


占位图

7.1 最小二乘 = 最大似然 ⭐⭐⭐

核心问题

最小二乘误差函数仅仅是代数上的便利...还是有概率论上的合理性?

答案:两者等价!

加性高斯噪声假设(Additive Gaussian Noise)

t=y(x,w)+ϵ,ϵ∼N(0,σ2)t = y(\mathbf{x}, \mathbf{w}) + \epsilon, \quad \epsilon \sim \mathcal{N}(0, \sigma^2)t=y(x,w)+ϵ,ϵ∼N(0,σ2)

  • y(x,w)y(\mathbf{x},\mathbf{w})y(x,w):确定性信号
  • ϵ\epsilonϵ:零均值高斯随机噪声(IID跨数据点)
  • → t∣x∼N(y(x,w),σ2)t|\mathbf{x} \sim \mathcal{N}(y(\mathbf{x},\mathbf{w}), \sigma^2)t∣x∼N(y(x,w),σ2)

似然函数

p(t∣X,w,σ2)=∏n=1NN(tn∣wTϕ(xn),σ2)p(\mathbf{t}|\mathbb{X}, \mathbf{w}, \sigma^2) = \prod_{n=1}^{N} \mathcal{N}(t_n | \mathbf{w}^T\phi(\mathbf{x}_n), \sigma^2)p(t∣X,w,σ2)=n=1∏NN(tn∣wTϕ(xn),σ2)

对数似然

ln⁡p(t∣X,w,σ2)=−N2ln⁡(2πσ2)−12σ2∑n=1N(tn−wTϕ(xn))2\ln p(\mathbf{t}|\mathbb{X}, \mathbf{w}, \sigma^2) = -\frac{N}{2}\ln(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{n=1}^{N}(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2lnp(t∣X,w,σ2)=−2Nln(2πσ2)−2σ21n=1∑N(tn−wTϕ(xn))2

=−N2ln⁡(2π)−N2ln⁡σ2−1σ2⋅ED(w)= -\frac{N}{2}\ln(2\pi) - \frac{N}{2}\ln\sigma^2 - \frac{1}{\sigma^2} \cdot \mathbf{E}_D(\mathbf{w})=−2Nln(2π)−2Nlnσ2−σ21⋅ED(w)

其中 ED(w)=12∑n=1N(tn−wTϕ(xn))2\mathbf{E}D(\mathbf{w}) = \frac{1}{2}\sum{n=1}^{N}(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2ED(w)=21∑n=1N(tn−wTϕ(xn))2

关键结论 ⭐

最大化对数似然(关于w\mathbf{w}w)= 最小化平方和误差!

  • 前两项与w\mathbf{w}w无关(常数)
  • 最大化 → 相当于最小化 1σ2ED(w)\frac{1}{\sigma^2}\mathbf{E}_D(\mathbf{w})σ21ED(w) → 即最小化ED(w)\mathbf{E}_D(\mathbf{w})ED(w)
  • MLE解 = 最小二乘解(在高斯噪声假设下)

7.2 噪声模型 ↔ 误差函数 ⭐⭐

噪声分布 密度函数 −log⁡p(ϵ)-\log p(\epsilon)−logp(ϵ) 对应误差
高斯 N(0,σ2)\mathcal{N}(0,\sigma^2)N(0,σ2) 12πσe−ϵ2/2σ2\frac{1}{\sqrt{2\pi}\sigma}e^{-\epsilon^2/2\sigma^2}2π σ1e−ϵ2/2σ2 ϵ22σ2\frac{\epsilon^2}{2\sigma^2}2σ2ϵ2 + const 平方和误差(MSE)
拉普拉斯 Laplace(0,b)(0,b)(0,b) 12be−∣ϵ∣/b\frac{1}{2b}e^{-|\epsilon|/b}2b1e−∣ϵ∣/b ∣ϵ∣b\frac{|\epsilon|}{b}b∣ϵ∣ + const 绝对误差(MAE)

结论

你选择的误差函数 = 你对数据噪声分布的隐含假设!

  • 使用MSE → 隐含假设噪声是高斯分布(对大误差惩罚重)
  • 使用MAE → 隐含假设噪声是拉普拉斯分布(对异常值更鲁棒)

7.3 MLE推导正规方程

对w\mathbf{w}w求梯度:

∇wln⁡p=−1σ2∇wED(w)=1σ2∑n=1N(tn−wTϕ(xn))ϕ(xn)=0\nabla_{\mathbf{w}} \ln p = -\frac{1}{\sigma^2}\nabla_{\mathbf{w}}\mathbf{E}D(\mathbf{w}) = \frac{1}{\sigma^2}\sum{n=1}^{N}(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))\phi(\mathbf{x}_n) = 0∇wlnp=−σ21∇wED(w)=σ21n=1∑N(tn−wTϕ(xn))ϕ(xn)=0

∑ntnϕ(xn)=∑nϕ(xn)ϕ(xn)Tw\sum_n t_n \phi(\mathbf{x}_n) = \sum_n \phi(\mathbf{x}_n)\phi(\mathbf{x}_n)^T \mathbf{w}n∑tnϕ(xn)=n∑ϕ(xn)ϕ(xn)Tw

矩阵形式:

Φ(X)Tt=Φ(X)TΦ(X)wML\Phi(\mathbb{X})^T\mathbf{t} = \Phi(\mathbb{X})^T\Phi(\mathbb{X})\mathbf{w}_{ML}Φ(X)Tt=Φ(X)TΦ(X)wML

wML=(ΦTΦ)−1ΦTt\mathbf{w}_{ML} = (\Phi^T\Phi)^{-1}\Phi^T\mathbf{t}wML=(ΦTΦ)−1ΦTt

与第五章正规方程完全一致!Φ\PhiΦ = 基函数变换后的设计矩阵。


笔记中的图片索引

序号 图片内容描述 来源位置
图1 高斯噪声与拉普拉斯噪声分布对比 Lecture 07 第15页
图2 噪声模型→误差函数的对应关系 Lecture 07 第15页

笔记整理时间:2026年6月28日