【机器学习】回归 Regression

1 回归概述

1.1 什么是回归

回归是一种监督学习 方法,主要用于预测连续值

Regression is a supervised learning method mainly for predicting continuous values.

1.2 历史来源

1885 年由 Francis Galton 提出,最初用于研究父母与子女身高的遗传关系

Proposed by Francis Galton in 1885, originally for studying hereditary stature.

1.3 回归的三种类型

  • 简单线性回归(Simple Linear Regression):一个输入,一个输出(one input, one output)
  • 多元回归(Multiple Regression):多个输入,一个输出(multiple inputs, one output)
  • 多输出回归(Multivariate Regression):多个输入,多个输出(multiple inputs, multiple outputs)

1.4 核心思想

假设输出 y 与输入 x线性关系,学习一组系数,用于预测新样本。

Assume output y has a linear relationship with input x; learn coefficients for prediction.


2 回归的理论定义

2.1 回归问题

独立同分布:样本之间不互相影响,数据来自同一个模型环境规则。

给定独立同分布(i.i.d)的带标签样本,学习一个预测函数 ℎ,使泛化误差最小

Given i.i.d labeled samples, learn a function ℎ to minimize generalization error.

2.2 泛化误差(Generalization Error)

模型在真实数据分布 上的期望误差

Expected error over true data distribution

2.3 经验误差(Empirical Error)

模型在训练集 上的平均误差

Average error on training set

2.4 常用损失:平方误差

最常用,平滑易优化

Most common, smooth & easy to optimize


3 线性回归(Linear Regression)

线性回归假设预测输出是输入特征的线性组合

3.1 模型公式

预测值 = 权重・特征 + 偏置

Prediction = weight·feature + bias

3.2 优化目标(MSE)

在假设空间里,找到一组 w,b,使预测值与真实值的均方误差最小

最小化均方误差

Minimize mean squared error

  • m:样本数量(number of samples)
  • xi:第 i 个输入
  • yi:第 i 个真实标签
  • Φ(xi):第 i 个样本的特征

3.3 矩阵紧凑形式

在每个Φ(xi​)后面+一维1,把所有样本堆叠成矩阵

3.4 求最优解:梯度==0

损失函数是凸函数,可导,梯度==0时有最小值

如果 XX⊤ 可逆,直接求逆得到最优 W:

不可逆时用伪逆(pseudo-inverse)

3.5 线性回归的缺点

  • 低偏差、高方差(low bias, high variance)
  • 无正则化,容易过拟合
  • 无法自动做特征选择
  • 无法处理强非线性

4 核岭回归(Kernel Ridge Regression)

4.1 是什么

线性回归 + L2 正则化 + 核技巧,可以拟合非线性。

Linear regression + L2 regularization + kernel trick, can fit nonlinearity.

4.2 目标函数

  • λ:正则强度(regularization strength)
  • L2 正则:让权重变小,防止过拟合

4.3 闭式解

一定可逆,稳定安全

Always invertible, stable & safe

4.4 特点

  • 平衡偏差 - 方差(bias-variance trade-off)
  • 权重收缩(shrinkage)趋近于 0
  • 可用于非线性回归

5 Lasso 回归(Lasso Regression)

5.1 全称

Least Absolute Shrinkage and Selection Operator

最小绝对值收缩与选择算子

5.2 核心

使用 L1 正则 ,可以把不重要特征的权重直接压到 0 ,实现自动特征选择

Uses L1 regularization to push irrelevant weights to 0 , doing automatic feature selection.

5.3 目标函数

5.4 关键特性

  • 稀疏解(sparse solution)
  • 输出少量非零权重
  • 自动筛选重要特征
  • 无法直接使用核技巧

6 弹性网回归(Elastic Net Regression)

6.1 是什么

结合 L1 + L2 正则,融合 Lasso 与 Ridge 的优点。

Combines L1 + L2 regularization, merges advantages of Lasso & Ridge.

6.2 目标函数

6.3 优点

  • 处理特征相关的数据效果更好
  • 稳定、比 Lasso 更鲁棒
  • 既能稀疏,又能收缩权重

7 数据处理(Dealing with Data)

7.1 非代表性数据

训练数据分布必须与真实场景一致,否则无法泛化。

Train distribution must match real-world distribution.

7.2 低质量数据

  • 异常值(outliers):删除或修正
  • 噪声(noise):去噪、平滑
  • 缺失值(missing values):填充均值 / 中位数,或丢弃特征

7.3 无关特征

特征选择特征提取处理,正则化(Lasso/ElasticNet)可自动筛选。

Use feature selection/extraction, regularization helps automatically.


8 偏差 - 方差权衡(Bias-Variance Trade-off)

8.1 模型误差三部分

  1. 不可约误差(irreducible error)
  2. 偏差(Bias) :模型拟合能力不足 → 欠拟合
  3. 方差(Variance) :模型太敏感 → 过拟合

8.2 规律

  • 模型越简单 → 高偏差、低方差
  • 模型越复杂 → 低偏差、高方差
  • 最优在中间平衡点

8.3 直观理解

  • 欠拟合(高偏差):模型太笨,学不会
  • 过拟合(高方差):模型太聪明,死记硬背

9 四大回归模型对比

模型 正则 特点 适用场景
线性回归 简单、易过拟合 基础线性问题
岭回归 Ridge L2 权重收缩、稳定 特征多、共线
Lasso L1 稀疏、特征选择 高维、筛选特征
弹性网 ElasticNet L1+L2 稳定 + 稀疏 特征相关、高维
相关推荐
deephub7 小时前
为什么 MCP 在协议层会有 prompt injection的问题:工具描述如何劫持 agent 上下文
人工智能·深度学习·大语言模型·ai-agent·mcp
罗西的思考8 小时前
【GUI-Agent】阿里通义MAI-UI 代码阅读(1)— 总体
人工智能·机器学习·ui·transformer
配奇9 小时前
RNN及其变体
人工智能·rnn·深度学习
卷卷说风控9 小时前
【卷卷观察】硅谷要把AI数据中心扔进海里,这操作我服了
人工智能·深度学习
玩转单片机与嵌入式9 小时前
TInyML基础:“不用死记公式!一文讲透全连接层:它到底把神经网络‘连’成了什么样?”
人工智能·深度学习·神经网络
隔壁大炮10 小时前
第二章 脑电、诱发电位和事件相关电位
人工智能·深度学习·erp·eeg·脑电信号
薛定e的猫咪11 小时前
(AAMAS 2023)基于广义策略改进优先级的高效多目标学习 GPI - LS/PD
人工智能·学习·机器学习
数智工坊11 小时前
【VAE 论文阅读| ICLR 2014】:变分自编码器——深度生成模型的理论基石
论文阅读·人工智能·深度学习
沪漂阿龙11 小时前
机器学习面试超详细实战指南(2026版)——不懂高数也能看懂的硬核干货,建议从头看到尾
人工智能·机器学习·面试
JQLvopkk11 小时前
C# 工业级数据可视化:用ScottPlot让10万个点流畅显示的实战秘籍
人工智能·算法·机器学习