机器学习与模式识别第七章线性回归3 考点压缩

第七章：Linear Regression (3) --- Probabilistic View --- 知识点笔记

综合来源：Lecture 07 PDF（16页）、课堂笔记（CSDN）

占位图

7.1 最小二乘 = 最大似然 ⭐⭐⭐

核心问题

最小二乘误差函数仅仅是代数上的便利...还是有概率论上的合理性？

答案：两者等价！

加性高斯噪声假设（Additive Gaussian Noise）

t=y(x,w)+ϵ,ϵ∼N(0,σ2)t = y(\mathbf{x}, \mathbf{w}) + \epsilon, \quad \epsilon \sim \mathcal{N}(0, \sigma^2)t=y(x,w)+ϵ,ϵ∼N(0,σ2)

y(x,w)y(\mathbf{x},\mathbf{w})y(x,w)：确定性信号
ϵ\epsilonϵ：零均值高斯随机噪声（IID跨数据点）
→ t∣x∼N(y(x,w),σ2)t|\mathbf{x} \sim \mathcal{N}(y(\mathbf{x},\mathbf{w}), \sigma^2)t∣x∼N(y(x,w),σ2)

似然函数

p(t∣X,w,σ2)=∏n=1NN(tn∣wTϕ(xn),σ2)p(\mathbf{t}|\mathbb{X}, \mathbf{w}, \sigma^2) = \prod_{n=1}^{N} \mathcal{N}(t_n | \mathbf{w}^T\phi(\mathbf{x}_n), \sigma^2)p(t∣X,w,σ2)=n=1∏NN(tn∣wTϕ(xn),σ2)

对数似然

ln⁡p(t∣X,w,σ2)=−N2ln⁡(2πσ2)−12σ2∑n=1N(tn−wTϕ(xn))2\ln p(\mathbf{t}|\mathbb{X}, \mathbf{w}, \sigma^2) = -\frac{N}{2}\ln(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{n=1}^{N}(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2lnp(t∣X,w,σ2)=−2Nln(2πσ2)−2σ21n=1∑N(tn−wTϕ(xn))2

=−N2ln⁡(2π)−N2ln⁡σ2−1σ2⋅ED(w)= -\frac{N}{2}\ln(2\pi) - \frac{N}{2}\ln\sigma^2 - \frac{1}{\sigma^2} \cdot \mathbf{E}_D(\mathbf{w})=−2Nln(2π)−2Nlnσ2−σ21⋅ED(w)

其中 ED(w)=12∑n=1N(tn−wTϕ(xn))2\mathbf{E}D(\mathbf{w}) = \frac{1}{2}\sum{n=1}^{N}(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2ED(w)=21∑n=1N(tn−wTϕ(xn))2

关键结论 ⭐

最大化对数似然（关于w\mathbf{w}w）= 最小化平方和误差！

前两项与w\mathbf{w}w无关（常数）
最大化 → 相当于最小化 1σ2ED(w)\frac{1}{\sigma^2}\mathbf{E}_D(\mathbf{w})σ21ED(w) → 即最小化ED(w)\mathbf{E}_D(\mathbf{w})ED(w)
MLE解 = 最小二乘解（在高斯噪声假设下）

7.2 噪声模型 ↔ 误差函数 ⭐⭐

噪声分布	密度函数	−log⁡p(ϵ)-\log p(\epsilon)−logp(ϵ)	对应误差
高斯 N(0,σ2)\mathcal{N}(0,\sigma^2)N(0,σ2)	12πσe−ϵ2/2σ2\frac{1}{\sqrt{2\pi}\sigma}e^{-\epsilon^2/2\sigma^2}2π σ1e−ϵ2/2σ2	ϵ22σ2\frac{\epsilon^2}{2\sigma^2}2σ2ϵ2 + const	平方和误差（MSE）
拉普拉斯 Laplace(0,b)(0,b)(0,b)	12be−∣ϵ∣/b\frac{1}{2b}e^{-\|\epsilon\|/b}2b1e−∣ϵ∣/b	∣ϵ∣b\frac{\|\epsilon\|}{b}b∣ϵ∣ + const	绝对误差（MAE）

结论

你选择的误差函数 = 你对数据噪声分布的隐含假设！

使用MSE → 隐含假设噪声是高斯分布（对大误差惩罚重）
使用MAE → 隐含假设噪声是拉普拉斯分布（对异常值更鲁棒）

7.3 MLE推导正规方程

对w\mathbf{w}w求梯度：

∇wln⁡p=−1σ2∇wED(w)=1σ2∑n=1N(tn−wTϕ(xn))ϕ(xn)=0\nabla_{\mathbf{w}} \ln p = -\frac{1}{\sigma^2}\nabla_{\mathbf{w}}\mathbf{E}D(\mathbf{w}) = \frac{1}{\sigma^2}\sum{n=1}^{N}(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))\phi(\mathbf{x}_n) = 0∇wlnp=−σ21∇wED(w)=σ21n=1∑N(tn−wTϕ(xn))ϕ(xn)=0

∑ntnϕ(xn)=∑nϕ(xn)ϕ(xn)Tw\sum_n t_n \phi(\mathbf{x}_n) = \sum_n \phi(\mathbf{x}_n)\phi(\mathbf{x}_n)^T \mathbf{w}n∑tnϕ(xn)=n∑ϕ(xn)ϕ(xn)Tw

矩阵形式：

Φ(X)Tt=Φ(X)TΦ(X)wML\Phi(\mathbb{X})^T\mathbf{t} = \Phi(\mathbb{X})^T\Phi(\mathbb{X})\mathbf{w}_{ML}Φ(X)Tt=Φ(X)TΦ(X)wML

wML=(ΦTΦ)−1ΦTt\mathbf{w}_{ML} = (\Phi^T\Phi)^{-1}\Phi^T\mathbf{t}wML=(ΦTΦ)−1ΦTt

与第五章正规方程完全一致！Φ\PhiΦ = 基函数变换后的设计矩阵。

笔记中的图片索引

序号	图片内容描述	来源位置
图1	高斯噪声与拉普拉斯噪声分布对比	Lecture 07 第15页
图2	噪声模型→误差函数的对应关系	Lecture 07 第15页

笔记整理时间：2026年6月28日

机器学习与模式识别 第七章 线性回归3 考点压缩