机器学习与模式识别 第五章 线性回归1 考点压缩

第五章:Linear Regression (1) --- 知识点笔记

综合来源:Lecture 05 PDF(56页)、课堂笔记(CSDN)


占位图

5.1 线性回归模型

模型形式

y(x,w)=w0+w1x1+⋯+wDxDy(\mathbf{x}, \mathbf{w}) = w_0 + w_1 x_1 + \cdots + w_D x_Dy(x,w)=w0+w1x1+⋯+wDxD

  • 监督学习:给定{(x_n, t_n)},学习连续目标值t
  • D=1最简单情况:y(x,w)=w0+w1x1y(x, w) = w_0 + w_1 x_1y(x,w)=w0+w1x1(截距+斜率)
  • 高维:预测值构成RD+1\mathbb{R}^{D+1}RD+1中的超平面

"线性"的含义 ⭐

线性模型 = 对参数www线性 ,而非对特征xxx线性!

y(x,w)=w0+∑j=1M−1wjϕj(x)y(\mathbf{x}, \mathbf{w}) = w_0 + \sum_{j=1}^{M-1} w_j \phi_j(\mathbf{x})y(x,w)=w0+j=1∑M−1wjϕj(x)

  • ϕj(x)\phi_j(\mathbf{x})ϕj(x):基函数(basis functions),可以是非线性的
  • 只要对www是线性的 = 线性模型

5.2 基函数(Basis Functions)⭐

为什么需要基函数

  • 深度学习之前:手工设计特征 ϕj(x)\phi_j(\mathbf{x})ϕj(x) → 线性模型处理
  • 选表达力强的特征 → 简单的线性模型就能成功

常见基函数类型

类型 公式 特点
多项式 ϕj(x)=xj\phi_j(x) = x^jϕj(x)=xj 类似泰勒展开
RBF(高斯) ϕj(x)=exp⁡(−(x−μj)22σ2)\phi_j(x) = \exp(-\frac{(x-\mu_j)^2}{2\sigma^2})ϕj(x)=exp(−2σ2(x−μj)2) 局部特征
Sigmoid ϕj(x)=sig(x−μjσ)\phi_j(x) = \text{sig}(\frac{x-\mu_j}{\sigma})ϕj(x)=sig(σx−μj) S型曲线
正弦 ϕj(x)=sin⁡(x)\phi_j(x) = \sin(x)ϕj(x)=sin(x) 或 cos⁡(x)\cos(x)cos(x) 周期特征

不同基函数 = 不同的归纳偏置!(CSDN笔记强调)

实例:5次多项式

y(x,w)=∑j=05wjxjy(x, \mathbf{w}) = \sum_{j=0}^{5} w_j x^jy(x,w)=j=0∑5wjxj

  • 相比简单直线,多项式拟合MSE更低 → 更好的性能

5.3 向量化计算 ⭐

增广输入

令 x0=1x_0 = 1x0=1(截距项),则:

y(x,w)=∑d=0Dwdxd=wTx=xTwy(\mathbf{x}, \mathbf{w}) = \sum_{d=0}^{D} w_d x_d = \mathbf{w}^T \mathbf{x} = \mathbf{x}^T \mathbf{w}y(x,w)=d=0∑Dwdxd=wTx=xTw

矩阵形式(N个样本)

Y=Xw\mathbb{Y} = \mathbb{X} \mathbf{w}Y=Xw

  • 设计矩阵(Design Matrix) X∈RN×(D+1)\mathbb{X} \in \mathbb{R}^{N \times (D+1)}X∈RN×(D+1)
  • X=x1,x2,...,xNT\mathbb{X} = \\mathbf{x}_1, \\mathbf{x}_2, \\ldots, \\mathbf{x}_N^TX=x1,x2,...,xNT

5.4 误差函数 ⭐

平方和误差(Sum of Squares)

E(w)=12∑n=1N(tn−y(xn,w))2E(\mathbf{w}) = \frac{1}{2} \sum_{n=1}^{N} (t_n - y(\mathbf{x}_n, \mathbf{w}))^2E(w)=21n=1∑N(tn−y(xn,w))2

  • 非负,仅当所有预测等于目标时为0
  • 系数12\frac{1}{2}21为后续求导方便
  • 残差:en=tn−y(xn,w)e_n = t_n - y(\mathbf{x}_n, \mathbf{w})en=tn−y(xn,w)

5.5 误差最小化:正规方程 ⭐⭐⭐

推导过程

E(w)E(\mathbf{w})E(w)是w\mathbf{w}w的二次函数 → 只有一个全局最小值!

对w0w_0w0求导:

∂E∂w0=−∑n(tn−w0−∑d=1Dwdxnd)=0\frac{\partial E}{\partial w_0} = -\sum_n \left(t_n - w_0 - \sum_{d=1}^{D} w_d x_{nd}\right) = 0∂w0∂E=−n∑(tn−w0−d=1∑Dwdxnd)=0

对wkw_kwk求导:

∂E∂wk=−∑nxnk(tn−w0−∑d=1Dwdxnd)=0\frac{\partial E}{\partial w_k} = -\sum_n x_{nk} \left(t_n - w_0 - \sum_{d=1}^{D} w_d x_{nd}\right) = 0∂wk∂E=−n∑xnk(tn−w0−d=1∑Dwdxnd)=0

正规方程(Normal Equations)

XTXw=XTt\mathbb{X}^T \mathbb{X} \mathbf{w} = \mathbb{X}^T \mathbf{t}XTXw=XTt

闭式解(Closed-Form Solution)

w∗=(XTX)−1XTt\mathbf{w}^* = (\mathbb{X}^T \mathbb{X})^{-1} \mathbb{X}^T \mathbf{t}w∗=(XTX)−1XTt

前提:XTX\mathbb{X}^T \mathbb{X}XTX可逆


5.6 几何解释 ⭐⭐

两种视角

视角1(行视角) :每行=一个数据点的预测 xnTw\mathbf{x}_n^T \mathbf{w}xnTw

视角2(列视角) :预测Y\mathbb{Y}Y = X\mathbb{X}X各列的线性组合

Y=w0X:,0+w1X:,1+⋯+wDX:,D\mathbb{Y} = w_0 \mathbb{X}{:,0} + w_1 \mathbb{X}{:,1} + \cdots + w_D \mathbb{X}_{:,D}Y=w0X:,0+w1X:,1+⋯+wDX:,D

正交投影

  • 预测Y\mathbb{Y}Y在span(X)\text{span}(\mathbb{X})span(X)(列空间/张成空间)中
  • 真实目标t\mathbf{t}t通常不在 span(X)\text{span}(\mathbb{X})span(X)中
  • 最优解:Y\mathbb{Y}Y是t\mathbf{t}t在span(X)\text{span}(\mathbb{X})span(X)上的正交投影

正交条件 :残差向量 e⃗=t−Xw\vec{e} = \mathbf{t} - \mathbb{X}\mathbf{w}e =t−Xw 与X\mathbb{X}X的所有列正交

XTe⃗=0  ⟹  XT(t−Xw∗)=0  ⟹  XTXw∗=XTt\mathbb{X}^T \vec{e} = 0 \implies \mathbb{X}^T(\mathbf{t} - \mathbb{X}\mathbf{w}^*) = 0 \implies \mathbb{X}^T\mathbb{X}\mathbf{w}^* = \mathbb{X}^T\mathbf{t}XTe =0⟹XT(t−Xw∗)=0⟹XTXw∗=XTt


5.7 评估指标 ⭐

指标 公式 特点
MSE 1N∑(tn−yn)2\frac{1}{N}\sum(t_n - y_n)^2N1∑(tn−yn)2 平方惩罚,对大误差敏感
RMSE 1N∑(tn−yn)2\sqrt{\frac{1}{N}\sum(t_n - y_n)^2}N1∑(tn−yn)2 与数据同单位
1−∑(tn−yn)2∑(tn−tˉ)21 - \frac{\sum(t_n - y_n)^2}{\sum(t_n - \bar{t})^2}1−∑(tn−tˉ)2∑(tn−yn)2 相对均值基线的改进比例
MAE 1N∑∣tn−yn∣\frac{1}{N}\sum|t_n - y_n|N1∑∣tn−yn∣ 绝对值惩罚,对异常值更鲁棒
MAPE 1N∑∣tn−yntn∣×100\frac{1}{N}\sum|\frac{t_n - y_n}{t_n}| \times 100N1∑∣tntn−yn∣×100 百分比误差

R²的含义

R2=1−模型MSE仅用均值预测的MSER^2 = 1 - \frac{\text{模型MSE}}{\text{仅用均值预测的MSE}}R2=1−仅用均值预测的MSE模型MSE

  • R²=1:完美预测 | R²=0:和均值预测一样 | R²<0:比均值预测还差
  • 无单位,仅比较相对于均值基线的性能

残差图(Residual Plot)

  • 好的残差图:点随机散布在0附近、方差大致恒定、无趋势

笔记中的图片索引

序号 图片内容描述 来源位置
图1 线性回归ML生命周期总览 Lecture 05 第4页
图2 不同基函数拟合效果对比 Lecture 05 第14-15页
图3 多项式基函数(5阶)vs直线拟合 Lecture 05 第19页
图4 误差函数与残差可视化 Lecture 05 第28页
图5 正交投影几何解释 Lecture 05 第39-40页
图6 拟合图+残差图示例 Lecture 05 第45页

笔记整理时间:2026年6月28日