最小二乘&均方误差MSE&平均绝对误差MAE

这三者都是衡量模型预测误差的核心概念,但属于不同层面的工具。简单来说:

  • 最小二乘 :是一种求解模型参数的方法(更侧重计算过程)。
  • 均方误差 (MSE) :是一种评价预测误差的指标(更侧重结果度量)。
  • 平均绝对误差 (MAE) :也是一种评价预测误差的指标,但鲁棒性比MSE好。

下面详细拆解它们的区别与联系。


1. 最小二乘法 (Least Squares, LS)

本质 :一种参数估计方法(优化算法),常用于线性回归。

核心思想 :找到一组模型参数,使得残差平方和 (RSS) 最小。

残差平方和公式为:

RSS = \\sum_{i=1}\^{n} (y_i - \\hat{y}_i)\^2

特点

  • 解析解(可直接用公式计算,无需迭代)。
  • 异常值非常敏感(因为误差被平方,大误差点的权重极大)。
  • 在误差服从正态分布 时,最小二乘估计等价于极大似然估计,统计性质最优(BLUE,即最佳线性无偏估计)。

典型应用:普通线性回归、多项式拟合。


2. 均方误差 (Mean Squared Error, MSE)

本质 :一种评价指标,衡量预测值与真实值之间的平均平方误差。

公式

MSE = \\frac{1}{n} \\sum_{i=1}\^{n} (y_i - \\hat{y}_i)\^2

特点

  • 与最小二乘的优化目标仅差一个常数因子 ( \frac{1}{n} )(因此最小化MSE等价于最小化RSS)。
  • 单位是原始单位的平方(例如:若 ( y ) 是"米",MSE就是"平方米"),不直观。
  • 同样对异常值敏感
  • 可导且凸性好,常用于梯度下降等优化算法。

与最小二乘的关系

最小二乘法就是在最小化MSE(忽略常数 ( \frac{1}{n} ))。所以训练线性回归模型时,两者等价。


3. 平均绝对误差 (Mean Absolute Error, MAE)

本质 :也是一种评价指标,但使用绝对差而非平方差。

公式

MAE = \\frac{1}{n} \\sum_{i=1}\^{n} \|y_i - \\hat{y}_i\|

特点

  • 对异常值不敏感(因为是线性惩罚)。
  • 单位与原始数据一致,解释性强(例如"平均误差±5米")。
  • 不可导(在误差为0处),不利于基于梯度的优化,但可用次梯度或线性规划求解。
  • 当误差分布为拉普拉斯分布时,最小化MAE等价于极大似然估计。

与MSE的对比

特性 MSE MAE
对异常值敏感度
梯度稳定性 处处可导 0点不可导
单位 原始单位的平方 原始单位
最优解对应分布 高斯(正态)分布 拉普拉斯分布
常用场景 误差大致正态、需重点惩罚大误差 数据有离群点、需鲁棒性评估

三者关系总结图(概念层级)

复制代码
模型训练/求解阶段              模型评估阶段
      │                           │
      ▼                           ▼
  最小二乘法                  MSE / MAE
      │                           │
      │(目标函数)                │(指标)
      │                           │
      └───────> 最小化RSS ──> 等价于最小化MSE
  • 训练时 :如果用最小二乘法,目标就是最小化RSS(或MSE) ;如果用其他方法(如最小绝对偏差),目标就是最小化MAE
  • 评估时:无论用什么训练方法,你都可以计算MSE和MAE来比较模型好坏。

实际选择建议

场景 推荐方法/指标
误差大致对称、无明显离群点,追求理论最优 最小二乘 + MSE
数据中存在明显离群点,不想让它们主导模型 最小绝对偏差 + MAE
需要向非技术方解释平均误差大小 MAE(单位直观)
需要重点关注大误差(如金融风险控制) MSE(惩罚大误差)
相关推荐
The Chosen One98519 小时前
分享对dp题目的理解-不断更新ing
笔记·算法·深度优先·动态规划·dp
好好学仿真19 小时前
【故障诊断】DSCNN-HA-TL:融合Swin窗口注意力和全局注意力机制的变工况轴承故障诊断(迁移学习/小样本)
机器学习·信号处理·迁移学习·swintransformer·轴承故障诊断·深度可分离卷积·gam注意力
m0_4708576419 小时前
如何制作并发布自己的phpMyAdmin主题_主题结构解析与打包分享的开发者指南
jvm·数据库·python
有时间要学习19 小时前
【无标题】
算法
re林檎19 小时前
算法札记——5.15
算法
2303_8212873819 小时前
怎么在MongoDB中追踪一个Document的具体流转路径_从Chunk分布到迁移历史日志分析
jvm·数据库·python
测试员周周19 小时前
【Appium 系列】第08节-pytest 集成 — conftest.py 中的 fixture 与 hook
开发语言·人工智能·python·功能测试·appium·测试用例·pytest
SunnyDays101119 小时前
如何使用 Python 删除 Word 文档密码和保护
python·删除 word 文档密码·移除 word 文档保护·解密 word 文档
鱼子星_19 小时前
【数据结构与算法】OJ题目详解(一)-单链表:从易到难的面试OJ题目
c语言·数据结构·算法·链表·面试·职场和发展
weixin_4597539419 小时前
mysql如何批量重置数据库用户密码_MySQL批量修改密码Shell脚本
jvm·数据库·python