数据挖掘 6.2~6.5 Regression 回归

6.1 Other dimensionality reduction methods

6.2 SRM view of PCA

6.3 OLSR

6.4 OLSR to SVR

6.5 Hurricane Intensity Regression

6.1 其他降维方法

6.2 PCA 的 SRM 视图

6.3 OLSR

6.4 OLSR 到 SVR

6.5 飓风强度回归

Regression 回归

[1 Regression 回归](#1 Regression 回归)
- 数学形式
[2 普通最小二乘回归（Ordinary Least Squares Regression, OLSR）](#2 普通最小二乘回归（Ordinary Least Squares Regression, OLSR）)
- [2.1 模型表示 (Representation)](#2.1 模型表示 (Representation))
- [2.2 评价准则 (Evaluation)](#2.2 评价准则 (Evaluation))
- [2.3 优化问题 (Optimization Problem)](#2.3 优化问题 (Optimization Problem))
- [2.4 闭式解 (Closed Form Solution)](#2.4 闭式解 (Closed Form Solution))
- [2.5 图像说明 (Intuition)](#2.5 图像说明 (Intuition))
- [2.6 简单例子](#2.6 简单例子)
[3 普通最小二乘回归 (OLS) vs 支持向量回归 (SVR)](#3 普通最小二乘回归 (OLS) vs 支持向量回归 (SVR))
- [3.1 OLS 的损失函数](#3.1 OLS 的损失函数)
- [3.2 SVR 的不同点](#3.2 SVR 的不同点)
- [3.3 总结对比表](#3.3 总结对比表)
[4 支持向量回归 (Support Vector Regression, SVR)](#4 支持向量回归 (Support Vector Regression, SVR))
回归分析的一些问题

1 Regression 回归

回归是一类监督学习方法，目标是学习一个函数 f ( x ) f(x) f(x) 使得输入 x x x 能预测输出 y y y。

f ( x ) ≈ y f(x)≈y f(x)≈y

x x x：自变量（输入）

y y y：因变量（输出）

≈ ≈ ≈：意味着预测值和真实值尽可能接近

换句话说，回归就是在寻找输入和输出之间的关系。

输出为连续变量

示例：根据图像预测年龄

数学形式

用于 -- 预测和预报 -- 评估变量之间的相互影响

数学公式
x x x 是由特征组成
y y y 是我们要求的感兴趣的变量
x , y x,y x,y 都可以是多维的

模型（Model）：
y = f ( x ; w ) + ϵ y = f(x; w) + \epsilon y=f(x;w)+ϵ

例如（For example）： y = w x + b + ϵ y = wx + b + \epsilon y=wx+b+ϵ
目标（Objective）： 估计参数 w w w，使得模型输出尽可能接近给定的目标值。

2 普通最小二乘回归（Ordinary Least Squares Regression, OLSR）

2.1 模型表示 (Representation)

回归模型形式为：
f ( x ) = w T x + b f(x) = w^T x + b f(x)=wTx+b

其中：

x x x: 输入特征向量
w w w: 权重参数，所求
b b b: 偏置项

2.2 评价准则 (Evaluation)

正则化 ：无
误差函数 ：平方损失 (Square Loss)

l ( f ( x ) , y ) = ( f ( x ) − y ) 2 l(f(x), y) = (f(x) - y)^2 l(f(x),y)=(f(x)−y)2

很简单，不像SVM它们的铰链损失函数，这个就是误差平方。

2.3 优化问题 (Optimization Problem)

最小化所有样本的平方误差和：

min ⁡ w ∑ i = 1 N ( w T x i − y i ) 2 \min_w \sum_{i=1}^N (w^T x_i - y_i)^2 wmini=1∑N(wTxi−yi)2

矩阵形式：

∥ X w − y ∥ 2 = ( X w − y ) T ( X w − y ) \|Xw - y\|^2 = (Xw - y)^T (Xw - y) ∥Xw−y∥2=(Xw−y)T(Xw−y)

2.4 闭式解 (Closed Form Solution)

对 w w w 求导并令其为 0，得到解析解：

w = ( X T X ) − 1 X T y w = (X^T X)^{-1} X^T y w=(XTX)−1XTy

很容易求解，甚至不用用到梯度下降算法。

x x x: 输入特征向量
w w w: 权重参数，所求

2.5 图像说明 (Intuition)

损失函数是一个 凸函数（碗状二次曲线），叫平方损失，保证唯一最优解。最小点对应于平方误差的最小值，即闭式解。

问题：如果我们更改这个损失函数，比如由二次方变成四次方。这条线或者 w w w 之间会有所不同吗？

我们这个算法对异常值非常敏感，减少它的一种方式就是摆脱平方。但，当我们摆脱平方，我们很容易找到 w w w的值。但这样做，绝对总和不能够分析性的解决，需要用梯度下降算法。所以，如果我们摆脱了一件事，但会收获计算复杂性。

2.6 简单例子

3 普通最小二乘回归 (OLS) vs 支持向量回归 (SVR)

3.1 OLS 的损失函数

普通最小二乘回归 (OLS) 使用的是 平方损失 (Square Loss)：

L ( y , y ^ ) = ( y − y ^ ) 2 L(y, \hat{y}) = (y - \hat{y})^2 L(y,y^)=(y−y^)2

问题：

对离群点 (outliers) 非常敏感
因为误差会被 平方放大

3.2 SVR 的不同点

支持向量回归 (SVR) 的核心区别在于 损失函数。

将平方损失换成 绝对值损失 (Absolute Loss)：

L ( y , y ^ ) = ∣ y − y ^ ∣ L(y, \hat{y}) = |y - \hat{y}| L(y,y^)=∣y−y^∣

或者使用 ϵ \epsilon ϵ-不敏感损失 (Epsilon-insensitive Loss)：

L ( y , y ^ ) = { 0 , ∣ y − y ^ ∣ ≤ ϵ ∣ y − y ^ ∣ − ϵ , otherwise L(y, \hat{y}) = \begin{cases} 0, & |y - \hat{y}| \leq \epsilon \\ |y - \hat{y}| - \epsilon, & \text{otherwise} \end{cases} L(y,y^)={0,∣y−y^∣−ϵ,∣y−y^∣≤ϵotherwise

这样可以减轻对离群点的敏感性，更加稳健。

3.3 总结对比表

方法	损失函数	对离群点敏感性	特点
OLS	平方损失 ( y − y ^ ) 2 (y - \hat{y})^2 (y−y^)2	很敏感	最小化方差，解析解简单
SVR	绝对值损失或 ϵ \epsilon ϵ-不敏感损失	鲁棒性更好	抗噪声能力强，对离群点不敏感

一句话总结

OLS → 用平方损失，对离群点非常敏感
SVR → 损失函数换成绝对值 / ϵ \epsilon ϵ-不敏感形式，对离群点更鲁棒。对异常值更加稳健

4 支持向量回归 (Support Vector Regression, SVR)

除了损失函数，和OLS没有区别

模型表示 (Representation)
f ( x ) = w T x + b f(x) = w^T x + b f(x)=wTx+b

评价准则 (Evaluation)

正则化项 ：
w T w w^T w wTw

用于控制模型复杂度

误差项 ：

使用 ε-不敏感损失函数
l ( f ( x ) , y ) = max ⁡ ( 0 , ∣ f ( x ) − y ∣ − ϵ ) l(f(x), y) = \max(0, |f(x) - y| - \epsilon) l(f(x),y)=max(0,∣f(x)−y∣−ϵ)

当预测值和真实值的差距小于 ϵ \epsilon ϵ 时，损失为 0
当差距超过 ϵ \epsilon ϵ 时，才会产生损失
这样可以减少模型对小误差和噪声的敏感性

优化问题 (Optimization Problem)

SVR 的目标函数为：

min ⁡ w , b 1 2 w T w + C N ∑ i = 1 N max ⁡ ( 0 , ∣ f ( x i ) − y i ∣ − ϵ ) \min_{w, b} \ \frac{1}{2} w^T w + \frac{C}{N} \sum_{i=1}^N \max \big(0, |f(x_i) - y_i| - \epsilon \big) w,bmin 21wTw+NCi=1∑Nmax(0,∣f(xi)−yi∣−ϵ)

对其的优化，我们会使用梯度下降算法。

w w w：权重向量
b b b：偏置
C C C：惩罚系数（平衡正则化和误差项）
N N N：样本数

回归分析的一些问题

如果两个变量不相关 (unrelated) ，那么它们的回归系数应该接近 0，即一个变量对另一个变量没有线性解释能力。
如果两个变量正相关 (positively related)，那么回归系数应为正数，说明自变量增加时因变量也会增加。

回归方向不同，系数是否相同？

一般情况下，不相同

比如，
y = w y x x + b y x + ϵ y x y = w_{yx}x + b_{yx} + \epsilon_{yx} y=wyxx+byx+ϵyx

x = w x y y + b x y + ϵ x y x = w_{xy}y + b_{xy} + \epsilon_{xy} x=wxyy+bxy+ϵxy
这两种回归系数通常不一样。

因为回归是有方向性的，X 回归 Y 和 Y 回归 X 的残差不同。

误差是否会与自变量相关？

在理想的线性回归假设中，误差与自变量独立。

如果误差和自变量相关，说明模型设定有问题（比如遗漏了重要变量），会导致估计偏差。