回归任务中损失函数有哪些

Csu__2026-06-03 10:31

1. Mean Bias Error (MBE, 平均偏差误差)

公式：1n∑(y−y^)\frac{1}{n}\sum(y - \hat{y})n1∑(y−y^)
特点：直接计算误差的平均值，不取绝对值也不平方。
缺点：正负误差会相互抵消，导致即使误差很大，MBE也可能接近0。
用途：极少作为损失函数用于训练，主要用于评估模型是高估了还是低估了数据（判断偏差方向）。

2. Mean Absolute Error (MAE, 平均绝对误差)

公式：1n∑∣y−y^∣\frac{1}{n}\sum|y - \hat{y}|n1∑∣y−y^∣
特点：计算预测值与真实值之差的绝对值平均。
优点：对异常值不敏感，鲁棒性强；物理意义直观（平均误差多少）。
缺点：在0点处不可导，优化时需要特殊处理（如次梯度）。

3. Mean Squared Error (MSE, 均方误差)

公式：1n∑(y−y^)2\frac{1}{n}\sum(y - \hat{y})^2n1∑(y−y^)2
特点：计算误差平方的平均值。
优点：处处可导，优化方便（梯度计算简单）；统计学性质优良（高斯噪声假设下的最大似然估计）。
缺点：对异常值非常敏感（平方放大了异常值的影响），可能导致模型偏向异常值。

4. Root Mean Squared Error (RMSE, 均方根误差)

公式：MSE\sqrt{MSE}MSE
特点：MSE 的平方根。
优点：单位与目标变量 yyy 一致，解释性强（"误差大概是多少米/元"）。
缺点：同 MSE 一样，对异常值敏感。常作为评价指标而非训练时的损失函数。

5. Huber Loss

公式：分段函数。误差小时用 MSE，误差大时用 MAE。
特点：结合了 MSE 和 MAE 的优点。
核心优势 ：
- 误差较小时（如 ∣y−y^∣<δ|y-\hat{y}| < \delta∣y−y^∣<δ），表现为MSE，保证了解的稳定性和可导性。
- 误差较大时，表现为MAE，降低了对异常值的敏感度。
用途：数据中包含噪声或异常值，但不想完全忽略它们时的首选。

6. Log Cosh Loss

公式：∑log⁡(cosh⁡(y−y^))\sum\log(\cosh(y - \hat{y}))∑log(cosh(y−y^))
特点：Huber Loss 的平滑近似版。
优点：
- 处处二阶可导（这使得它比 Huber 更适合需要使用牛顿法等二阶优化算法的场景，如 XGBoost）。
- 同样具备对小误差近似平方、对大误差近似线性的特性，对异常值鲁棒。
缺点：计算复杂度略高于前两者。

总结对比表

损失函数	对异常值敏感度	导数性质	适用场景
MBE	低（正负抵消）	可导	不用于训练，仅用于偏差分析
MAE	低（鲁棒）	0点不可导	数据含较多异常值
MSE	高（敏感）	处处可导	数据干净、高斯分布
RMSE	高	处处可导	评价指标（量纲一致）
Huber	中等	处处可导	需兼顾鲁棒性与平滑性
Log Cosh	中等	处处二阶可导	鲁棒回归 + 需要二阶导数优化

上一篇：从0开发一套geo优化软件：系统定位与整体架构

下一篇：如何使用Compose 绘制提升性能 —— 新手指南

热门推荐

01GitHub 镜像站点 02幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 03AI科技热点日报 | 2026年07月01日 042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08全面体验 Grok API 中转站（2025 · Grok 4 系列最新版）092026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？102026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf