【机器学习】回归 Regression

1 回归概述

1.1 什么是回归

回归是一种监督学习 方法,主要用于预测连续值

Regression is a supervised learning method mainly for predicting continuous values.

1.2 历史来源

1885 年由 Francis Galton 提出,最初用于研究父母与子女身高的遗传关系

Proposed by Francis Galton in 1885, originally for studying hereditary stature.

1.3 回归的三种类型

  • 简单线性回归(Simple Linear Regression):一个输入,一个输出(one input, one output)
  • 多元回归(Multiple Regression):多个输入,一个输出(multiple inputs, one output)
  • 多输出回归(Multivariate Regression):多个输入,多个输出(multiple inputs, multiple outputs)

1.4 核心思想

假设输出 y 与输入 x线性关系,学习一组系数,用于预测新样本。

Assume output y has a linear relationship with input x; learn coefficients for prediction.


2 回归的理论定义

2.1 回归问题

独立同分布:样本之间不互相影响,数据来自同一个模型环境规则。

给定独立同分布(i.i.d)的带标签样本,学习一个预测函数 ℎ,使泛化误差最小

Given i.i.d labeled samples, learn a function ℎ to minimize generalization error.

2.2 泛化误差(Generalization Error)

模型在真实数据分布 上的期望误差

Expected error over true data distribution

2.3 经验误差(Empirical Error)

模型在训练集 上的平均误差

Average error on training set

2.4 常用损失:平方误差

最常用,平滑易优化

Most common, smooth & easy to optimize


3 线性回归(Linear Regression)

线性回归假设预测输出是输入特征的线性组合

3.1 模型公式

预测值 = 权重・特征 + 偏置

Prediction = weight·feature + bias

3.2 优化目标(MSE)

在假设空间里,找到一组 w,b,使预测值与真实值的均方误差最小

最小化均方误差

Minimize mean squared error

  • m:样本数量(number of samples)
  • xi:第 i 个输入
  • yi:第 i 个真实标签
  • Φ(xi):第 i 个样本的特征

3.3 矩阵紧凑形式

在每个Φ(xi​)后面+一维1,把所有样本堆叠成矩阵

3.4 求最优解:梯度==0

损失函数是凸函数,可导,梯度==0时有最小值

如果 XX⊤ 可逆,直接求逆得到最优 W:

不可逆时用伪逆(pseudo-inverse)

3.5 线性回归的缺点

  • 低偏差、高方差(low bias, high variance)
  • 无正则化,容易过拟合
  • 无法自动做特征选择
  • 无法处理强非线性

4 核岭回归(Kernel Ridge Regression)

4.1 是什么

线性回归 + L2 正则化 + 核技巧,可以拟合非线性。

Linear regression + L2 regularization + kernel trick, can fit nonlinearity.

4.2 目标函数

  • λ:正则强度(regularization strength)
  • L2 正则:让权重变小,防止过拟合

4.3 闭式解

一定可逆,稳定安全

Always invertible, stable & safe

4.4 特点

  • 平衡偏差 - 方差(bias-variance trade-off)
  • 权重收缩(shrinkage)趋近于 0
  • 可用于非线性回归

5 Lasso 回归(Lasso Regression)

5.1 全称

Least Absolute Shrinkage and Selection Operator

最小绝对值收缩与选择算子

5.2 核心

使用 L1 正则 ,可以把不重要特征的权重直接压到 0 ,实现自动特征选择

Uses L1 regularization to push irrelevant weights to 0 , doing automatic feature selection.

5.3 目标函数

5.4 关键特性

  • 稀疏解(sparse solution)
  • 输出少量非零权重
  • 自动筛选重要特征
  • 无法直接使用核技巧

6 弹性网回归(Elastic Net Regression)

6.1 是什么

结合 L1 + L2 正则,融合 Lasso 与 Ridge 的优点。

Combines L1 + L2 regularization, merges advantages of Lasso & Ridge.

6.2 目标函数

6.3 优点

  • 处理特征相关的数据效果更好
  • 稳定、比 Lasso 更鲁棒
  • 既能稀疏,又能收缩权重

7 数据处理(Dealing with Data)

7.1 非代表性数据

训练数据分布必须与真实场景一致,否则无法泛化。

Train distribution must match real-world distribution.

7.2 低质量数据

  • 异常值(outliers):删除或修正
  • 噪声(noise):去噪、平滑
  • 缺失值(missing values):填充均值 / 中位数,或丢弃特征

7.3 无关特征

特征选择特征提取处理,正则化(Lasso/ElasticNet)可自动筛选。

Use feature selection/extraction, regularization helps automatically.


8 偏差 - 方差权衡(Bias-Variance Trade-off)

8.1 模型误差三部分

  1. 不可约误差(irreducible error)
  2. 偏差(Bias) :模型拟合能力不足 → 欠拟合
  3. 方差(Variance) :模型太敏感 → 过拟合

8.2 规律

  • 模型越简单 → 高偏差、低方差
  • 模型越复杂 → 低偏差、高方差
  • 最优在中间平衡点

8.3 直观理解

  • 欠拟合(高偏差):模型太笨,学不会
  • 过拟合(高方差):模型太聪明,死记硬背

9 四大回归模型对比

模型 正则 特点 适用场景
线性回归 简单、易过拟合 基础线性问题
岭回归 Ridge L2 权重收缩、稳定 特征多、共线
Lasso L1 稀疏、特征选择 高维、筛选特征
弹性网 ElasticNet L1+L2 稳定 + 稀疏 特征相关、高维
相关推荐
云和数据.ChenGuang2 小时前
机器学习之预测概率问题
人工智能·深度学习·神经网络·目标检测·机器学习·自然语言处理·语音识别
AI人工智能+2 小时前
表格识别技术通过深度学习与计算机视觉,实现复杂表格的自动化解析与结构化输出
深度学习·计算机视觉·ocr·表格识别
鹿角片ljp2 小时前
ET-BERT 文献逐句精读与深度解析
人工智能·深度学习·bert
郝学胜-神的一滴2 小时前
ReLU激活函数全解析:从原理到实战,解锁深度学习核心激活单元
人工智能·pytorch·python·深度学习·算法
拾贰_C2 小时前
【深度学习 | 输入数据】张量
人工智能·深度学习
沅_Yuan2 小时前
基于ARIMA差分自回归移动平均的时间序列预测模型【MATLAB】
机器学习·matlab·arima·时序预测·自回归·移动平均
春末的南方城市2 小时前
SIGGRAPH 2026 | 加州大学&Adobe提出首个可控全景视频生成框架OmniRoam,单图实现360°无限漫游,长时全景视频生成新SOTA。
人工智能·深度学习·机器学习·计算机视觉·aigc
阿拉斯攀登3 小时前
20 个 Android JNI + CMake 生产级示例
android·java·开发语言·人工智能·机器学习·无人售货柜
MRDONG13 小时前
从 Prompt 到智能体系统:Function Calling、Memory 与 Synthetic RAG 的全栈解析
人工智能·深度学习·神经网络·语言模型·自然语言处理·prompt