第五章:Linear Regression (1) --- 知识点笔记
综合来源:Lecture 05 PDF(56页)、课堂笔记(CSDN)
占位图

5.1 线性回归模型
模型形式
y(x,w)=w0+w1x1+⋯+wDxDy(\mathbf{x}, \mathbf{w}) = w_0 + w_1 x_1 + \cdots + w_D x_Dy(x,w)=w0+w1x1+⋯+wDxD
- 监督学习:给定{(x_n, t_n)},学习连续目标值t
- D=1最简单情况:y(x,w)=w0+w1x1y(x, w) = w_0 + w_1 x_1y(x,w)=w0+w1x1(截距+斜率)
- 高维:预测值构成RD+1\mathbb{R}^{D+1}RD+1中的超平面
"线性"的含义 ⭐
线性模型 = 对参数www线性 ,而非对特征xxx线性!
y(x,w)=w0+∑j=1M−1wjϕj(x)y(\mathbf{x}, \mathbf{w}) = w_0 + \sum_{j=1}^{M-1} w_j \phi_j(\mathbf{x})y(x,w)=w0+j=1∑M−1wjϕj(x)
- ϕj(x)\phi_j(\mathbf{x})ϕj(x):基函数(basis functions),可以是非线性的
- 只要对www是线性的 = 线性模型
5.2 基函数(Basis Functions)⭐
为什么需要基函数
- 深度学习之前:手工设计特征 ϕj(x)\phi_j(\mathbf{x})ϕj(x) → 线性模型处理
- 选表达力强的特征 → 简单的线性模型就能成功
常见基函数类型
| 类型 | 公式 | 特点 |
|---|---|---|
| 多项式 | ϕj(x)=xj\phi_j(x) = x^jϕj(x)=xj | 类似泰勒展开 |
| RBF(高斯) | ϕj(x)=exp(−(x−μj)22σ2)\phi_j(x) = \exp(-\frac{(x-\mu_j)^2}{2\sigma^2})ϕj(x)=exp(−2σ2(x−μj)2) | 局部特征 |
| Sigmoid | ϕj(x)=sig(x−μjσ)\phi_j(x) = \text{sig}(\frac{x-\mu_j}{\sigma})ϕj(x)=sig(σx−μj) | S型曲线 |
| 正弦 | ϕj(x)=sin(x)\phi_j(x) = \sin(x)ϕj(x)=sin(x) 或 cos(x)\cos(x)cos(x) | 周期特征 |
不同基函数 = 不同的归纳偏置!(CSDN笔记强调)
实例:5次多项式
y(x,w)=∑j=05wjxjy(x, \mathbf{w}) = \sum_{j=0}^{5} w_j x^jy(x,w)=j=0∑5wjxj
- 相比简单直线,多项式拟合MSE更低 → 更好的性能
5.3 向量化计算 ⭐
增广输入
令 x0=1x_0 = 1x0=1(截距项),则:
y(x,w)=∑d=0Dwdxd=wTx=xTwy(\mathbf{x}, \mathbf{w}) = \sum_{d=0}^{D} w_d x_d = \mathbf{w}^T \mathbf{x} = \mathbf{x}^T \mathbf{w}y(x,w)=d=0∑Dwdxd=wTx=xTw
矩阵形式(N个样本)
Y=Xw\mathbb{Y} = \mathbb{X} \mathbf{w}Y=Xw
- 设计矩阵(Design Matrix) X∈RN×(D+1)\mathbb{X} \in \mathbb{R}^{N \times (D+1)}X∈RN×(D+1)
- X=x1,x2,...,xNT\mathbb{X} = \\mathbf{x}_1, \\mathbf{x}_2, \\ldots, \\mathbf{x}_N^TX=x1,x2,...,xNT
5.4 误差函数 ⭐
平方和误差(Sum of Squares)
E(w)=12∑n=1N(tn−y(xn,w))2E(\mathbf{w}) = \frac{1}{2} \sum_{n=1}^{N} (t_n - y(\mathbf{x}_n, \mathbf{w}))^2E(w)=21n=1∑N(tn−y(xn,w))2
- 非负,仅当所有预测等于目标时为0
- 系数12\frac{1}{2}21为后续求导方便
- 残差:en=tn−y(xn,w)e_n = t_n - y(\mathbf{x}_n, \mathbf{w})en=tn−y(xn,w)
5.5 误差最小化:正规方程 ⭐⭐⭐
推导过程
E(w)E(\mathbf{w})E(w)是w\mathbf{w}w的二次函数 → 只有一个全局最小值!
对w0w_0w0求导:
∂E∂w0=−∑n(tn−w0−∑d=1Dwdxnd)=0\frac{\partial E}{\partial w_0} = -\sum_n \left(t_n - w_0 - \sum_{d=1}^{D} w_d x_{nd}\right) = 0∂w0∂E=−n∑(tn−w0−d=1∑Dwdxnd)=0
对wkw_kwk求导:
∂E∂wk=−∑nxnk(tn−w0−∑d=1Dwdxnd)=0\frac{\partial E}{\partial w_k} = -\sum_n x_{nk} \left(t_n - w_0 - \sum_{d=1}^{D} w_d x_{nd}\right) = 0∂wk∂E=−n∑xnk(tn−w0−d=1∑Dwdxnd)=0
正规方程(Normal Equations)
XTXw=XTt\mathbb{X}^T \mathbb{X} \mathbf{w} = \mathbb{X}^T \mathbf{t}XTXw=XTt
闭式解(Closed-Form Solution)
w∗=(XTX)−1XTt\mathbf{w}^* = (\mathbb{X}^T \mathbb{X})^{-1} \mathbb{X}^T \mathbf{t}w∗=(XTX)−1XTt
前提:XTX\mathbb{X}^T \mathbb{X}XTX可逆
5.6 几何解释 ⭐⭐
两种视角
视角1(行视角) :每行=一个数据点的预测 xnTw\mathbf{x}_n^T \mathbf{w}xnTw
视角2(列视角) :预测Y\mathbb{Y}Y = X\mathbb{X}X各列的线性组合
Y=w0X:,0+w1X:,1+⋯+wDX:,D\mathbb{Y} = w_0 \mathbb{X}{:,0} + w_1 \mathbb{X}{:,1} + \cdots + w_D \mathbb{X}_{:,D}Y=w0X:,0+w1X:,1+⋯+wDX:,D
正交投影
- 预测Y\mathbb{Y}Y在span(X)\text{span}(\mathbb{X})span(X)(列空间/张成空间)中
- 真实目标t\mathbf{t}t通常不在 span(X)\text{span}(\mathbb{X})span(X)中
- 最优解:Y\mathbb{Y}Y是t\mathbf{t}t在span(X)\text{span}(\mathbb{X})span(X)上的正交投影!
正交条件 :残差向量 e⃗=t−Xw\vec{e} = \mathbf{t} - \mathbb{X}\mathbf{w}e =t−Xw 与X\mathbb{X}X的所有列正交
XTe⃗=0 ⟹ XT(t−Xw∗)=0 ⟹ XTXw∗=XTt\mathbb{X}^T \vec{e} = 0 \implies \mathbb{X}^T(\mathbf{t} - \mathbb{X}\mathbf{w}^*) = 0 \implies \mathbb{X}^T\mathbb{X}\mathbf{w}^* = \mathbb{X}^T\mathbf{t}XTe =0⟹XT(t−Xw∗)=0⟹XTXw∗=XTt
5.7 评估指标 ⭐
| 指标 | 公式 | 特点 |
|---|---|---|
| MSE | 1N∑(tn−yn)2\frac{1}{N}\sum(t_n - y_n)^2N1∑(tn−yn)2 | 平方惩罚,对大误差敏感 |
| RMSE | 1N∑(tn−yn)2\sqrt{\frac{1}{N}\sum(t_n - y_n)^2}N1∑(tn−yn)2 | 与数据同单位 |
| R² | 1−∑(tn−yn)2∑(tn−tˉ)21 - \frac{\sum(t_n - y_n)^2}{\sum(t_n - \bar{t})^2}1−∑(tn−tˉ)2∑(tn−yn)2 | 相对均值基线的改进比例 |
| MAE | 1N∑∣tn−yn∣\frac{1}{N}\sum|t_n - y_n|N1∑∣tn−yn∣ | 绝对值惩罚,对异常值更鲁棒 |
| MAPE | 1N∑∣tn−yntn∣×100\frac{1}{N}\sum|\frac{t_n - y_n}{t_n}| \times 100N1∑∣tntn−yn∣×100 | 百分比误差 |
R²的含义
R2=1−模型MSE仅用均值预测的MSER^2 = 1 - \frac{\text{模型MSE}}{\text{仅用均值预测的MSE}}R2=1−仅用均值预测的MSE模型MSE
- R²=1:完美预测 | R²=0:和均值预测一样 | R²<0:比均值预测还差
- 无单位,仅比较相对于均值基线的性能
残差图(Residual Plot)
- 好的残差图:点随机散布在0附近、方差大致恒定、无趋势
笔记中的图片索引
| 序号 | 图片内容描述 | 来源位置 |
|---|---|---|
| 图1 | 线性回归ML生命周期总览 | Lecture 05 第4页 |
| 图2 | 不同基函数拟合效果对比 | Lecture 05 第14-15页 |
| 图3 | 多项式基函数(5阶)vs直线拟合 | Lecture 05 第19页 |
| 图4 | 误差函数与残差可视化 | Lecture 05 第28页 |
| 图5 | 正交投影几何解释 | Lecture 05 第39-40页 |
| 图6 | 拟合图+残差图示例 | Lecture 05 第45页 |
笔记整理时间:2026年6月28日