机器学习与模式识别第五章线性回归1 考点压缩

第五章：Linear Regression (1) --- 知识点笔记

综合来源：Lecture 05 PDF（56页）、课堂笔记（CSDN）

占位图

5.1 线性回归模型

模型形式

y(x,w)=w0+w1x1+⋯+wDxDy(\mathbf{x}, \mathbf{w}) = w_0 + w_1 x_1 + \cdots + w_D x_Dy(x,w)=w0+w1x1+⋯+wDxD

监督学习：给定{(x_n, t_n)}，学习连续目标值t
D=1最简单情况：y(x,w)=w0+w1x1y(x, w) = w_0 + w_1 x_1y(x,w)=w0+w1x1（截距+斜率）
高维：预测值构成RD+1\mathbb{R}^{D+1}RD+1中的超平面

"线性"的含义 ⭐

线性模型 = 对参数www线性 ，而非对特征xxx线性！

y(x,w)=w0+∑j=1M−1wjϕj(x)y(\mathbf{x}, \mathbf{w}) = w_0 + \sum_{j=1}^{M-1} w_j \phi_j(\mathbf{x})y(x,w)=w0+j=1∑M−1wjϕj(x)

ϕj(x)\phi_j(\mathbf{x})ϕj(x)：基函数（basis functions），可以是非线性的
只要对www是线性的 = 线性模型

5.2 基函数（Basis Functions）⭐

为什么需要基函数

深度学习之前：手工设计特征 ϕj(x)\phi_j(\mathbf{x})ϕj(x) → 线性模型处理
选表达力强的特征 → 简单的线性模型就能成功

常见基函数类型

类型	公式	特点
多项式	ϕj(x)=xj\phi_j(x) = x^jϕj(x)=xj	类似泰勒展开
RBF（高斯）	ϕj(x)=exp⁡(−(x−μj)22σ2)\phi_j(x) = \exp(-\frac{(x-\mu_j)^2}{2\sigma^2})ϕj(x)=exp(−2σ2(x−μj)2)	局部特征
Sigmoid	ϕj(x)=sig(x−μjσ)\phi_j(x) = \text{sig}(\frac{x-\mu_j}{\sigma})ϕj(x)=sig(σx−μj)	S型曲线
正弦	ϕj(x)=sin⁡(x)\phi_j(x) = \sin(x)ϕj(x)=sin(x) 或 cos⁡(x)\cos(x)cos(x)	周期特征

不同基函数 = 不同的归纳偏置！（CSDN笔记强调）

实例：5次多项式

y(x,w)=∑j=05wjxjy(x, \mathbf{w}) = \sum_{j=0}^{5} w_j x^jy(x,w)=j=0∑5wjxj

相比简单直线，多项式拟合MSE更低 → 更好的性能

5.3 向量化计算 ⭐

增广输入

令 x0=1x_0 = 1x0=1（截距项），则：

y(x,w)=∑d=0Dwdxd=wTx=xTwy(\mathbf{x}, \mathbf{w}) = \sum_{d=0}^{D} w_d x_d = \mathbf{w}^T \mathbf{x} = \mathbf{x}^T \mathbf{w}y(x,w)=d=0∑Dwdxd=wTx=xTw

矩阵形式（N个样本）

Y=Xw\mathbb{Y} = \mathbb{X} \mathbf{w}Y=Xw

设计矩阵（Design Matrix） X∈RN×(D+1)\mathbb{X} \in \mathbb{R}^{N \times (D+1)}X∈RN×(D+1)
X= $x1,x2,...,xN$ T\mathbb{X} = $\\mathbf{x}_1, \\mathbf{x}_2, \\ldots, \\mathbf{x}_N$ ^TX= $x1,x2,...,xN$ T

5.4 误差函数 ⭐

平方和误差（Sum of Squares）

E(w)=12∑n=1N(tn−y(xn,w))2E(\mathbf{w}) = \frac{1}{2} \sum_{n=1}^{N} (t_n - y(\mathbf{x}_n, \mathbf{w}))^2E(w)=21n=1∑N(tn−y(xn,w))2

非负，仅当所有预测等于目标时为0
系数12\frac{1}{2}21为后续求导方便
残差：en=tn−y(xn,w)e_n = t_n - y(\mathbf{x}_n, \mathbf{w})en=tn−y(xn,w)

5.5 误差最小化：正规方程 ⭐⭐⭐

推导过程

E(w)E(\mathbf{w})E(w)是w\mathbf{w}w的二次函数 → 只有一个全局最小值！

对w0w_0w0求导：

∂E∂w0=−∑n(tn−w0−∑d=1Dwdxnd)=0\frac{\partial E}{\partial w_0} = -\sum_n \left(t_n - w_0 - \sum_{d=1}^{D} w_d x_{nd}\right) = 0∂w0∂E=−n∑(tn−w0−d=1∑Dwdxnd)=0

对wkw_kwk求导：

∂E∂wk=−∑nxnk(tn−w0−∑d=1Dwdxnd)=0\frac{\partial E}{\partial w_k} = -\sum_n x_{nk} \left(t_n - w_0 - \sum_{d=1}^{D} w_d x_{nd}\right) = 0∂wk∂E=−n∑xnk(tn−w0−d=1∑Dwdxnd)=0

正规方程（Normal Equations）

XTXw=XTt\mathbb{X}^T \mathbb{X} \mathbf{w} = \mathbb{X}^T \mathbf{t}XTXw=XTt

闭式解（Closed-Form Solution）

w∗=(XTX)−1XTt\mathbf{w}^* = (\mathbb{X}^T \mathbb{X})^{-1} \mathbb{X}^T \mathbf{t}w∗=(XTX)−1XTt

前提：XTX\mathbb{X}^T \mathbb{X}XTX可逆

5.6 几何解释 ⭐⭐

两种视角

视角1（行视角） ：每行=一个数据点的预测 xnTw\mathbf{x}_n^T \mathbf{w}xnTw

视角2（列视角） ：预测Y\mathbb{Y}Y = X\mathbb{X}X各列的线性组合

Y=w0X:,0+w1X:,1+⋯+wDX:,D\mathbb{Y} = w_0 \mathbb{X}{:,0} + w_1 \mathbb{X}{:,1} + \cdots + w_D \mathbb{X}_{:,D}Y=w0X:,0+w1X:,1+⋯+wDX:,D

正交投影

预测Y\mathbb{Y}Y在span(X)\text{span}(\mathbb{X})span(X)（列空间/张成空间）中
真实目标t\mathbf{t}t通常不在 span(X)\text{span}(\mathbb{X})span(X)中
最优解：Y\mathbb{Y}Y是t\mathbf{t}t在span(X)\text{span}(\mathbb{X})span(X)上的正交投影！

正交条件 ：残差向量 e⃗=t−Xw\vec{e} = \mathbf{t} - \mathbb{X}\mathbf{w}e =t−Xw 与X\mathbb{X}X的所有列正交

XTe⃗=0 ⟹ XT(t−Xw∗)=0 ⟹ XTXw∗=XTt\mathbb{X}^T \vec{e} = 0 \implies \mathbb{X}^T(\mathbf{t} - \mathbb{X}\mathbf{w}^*) = 0 \implies \mathbb{X}^T\mathbb{X}\mathbf{w}^* = \mathbb{X}^T\mathbf{t}XTe =0⟹XT(t−Xw∗)=0⟹XTXw∗=XTt

5.7 评估指标 ⭐

指标	公式	特点
MSE	1N∑(tn−yn)2\frac{1}{N}\sum(t_n - y_n)^2N1∑(tn−yn)2	平方惩罚，对大误差敏感
RMSE	1N∑(tn−yn)2\sqrt{\frac{1}{N}\sum(t_n - y_n)^2}N1∑(tn−yn)2	与数据同单位
R²	1−∑(tn−yn)2∑(tn−tˉ)21 - \frac{\sum(t_n - y_n)^2}{\sum(t_n - \bar{t})^2}1−∑(tn−tˉ)2∑(tn−yn)2	相对均值基线的改进比例
MAE	1N∑∣tn−yn∣\frac{1}{N}\sum\|t_n - y_n\|N1∑∣tn−yn∣	绝对值惩罚，对异常值更鲁棒
MAPE	1N∑∣tn−yntn∣×100\frac{1}{N}\sum\|\frac{t_n - y_n}{t_n}\| \times 100N1∑∣tntn−yn∣×100	百分比误差

R²的含义

R2=1−模型MSE仅用均值预测的MSER^2 = 1 - \frac{\text{模型MSE}}{\text{仅用均值预测的MSE}}R2=1−仅用均值预测的MSE模型MSE

R²=1：完美预测 | R²=0：和均值预测一样 | R²<0：比均值预测还差
无单位，仅比较相对于均值基线的性能

残差图（Residual Plot）

好的残差图：点随机散布在0附近、方差大致恒定、无趋势

笔记中的图片索引

序号	图片内容描述	来源位置
图1	线性回归ML生命周期总览	Lecture 05 第4页
图2	不同基函数拟合效果对比	Lecture 05 第14-15页
图3	多项式基函数(5阶)vs直线拟合	Lecture 05 第19页
图4	误差函数与残差可视化	Lecture 05 第28页
图5	正交投影几何解释	Lecture 05 第39-40页
图6	拟合图+残差图示例	Lecture 05 第45页

笔记整理时间：2026年6月28日

机器学习与模式识别 第五章 线性回归1 考点压缩