深度学习篇---回归&分类任务的损失函数

文章目录

前言
一、分类任务常用损失函数
- [1. 交叉熵损失（Cross-Entropy Loss）](#1. 交叉熵损失（Cross-Entropy Loss）)
- [2. Hinge Loss（合页损失）](#2. Hinge Loss（合页损失）)
- [3. Focal Loss](#3. Focal Loss)
二、回归任务常用损失函数
- [1. 均方误差（Mean Squared Error, MSE）](#1. 均方误差（Mean Squared Error, MSE）)
- [2. 平均绝对误差（Mean Absolute Error, MAE）](#2. 平均绝对误差（Mean Absolute Error, MAE）)
- [3. Huber Loss](#3. Huber Loss)
三、损失函数值与训练状态的关系
四、总结

前言

本文简单介绍了深度学习中常用的损失函数。比如用于回归任务的交叉熵损失、Focal Loss损失；用于分类任务的MAE\MSE\Huber损失等。

一、分类任务常用损失函数

1. 交叉熵损失（Cross-Entropy Loss）

数学形式

𝑦𝑖,𝑐 样本 𝑖的真实标签（one-hot 编码）。

𝑝𝑖,𝑐：模型预测样本 𝑖 属于类别 𝑐的概率。

使用场景

适用场景：多分类任务（如手写数字识别、图像分类）。

特点

直接衡量预测概率分布与真实分布的差异。
对错误预测的惩罚呈指数增长（梯度随误差增大而增大）。

训练状态分析

损失下降

损失下降：模型正在学习正确分类样本。

损失震荡

损失震荡：学习率可能过高，或数据噪声较大。

训练损失低但是验证损失高

训练损失低但验证损失高：过拟合（模型记忆训练数据，泛化能力差）。

2. Hinge Loss（合页损失）

数学形式

𝑦𝑖∈{−1,1}：真实标签。

𝑦^𝑖：模型输出的未归一化得分（如 SVM 的决策函数）。

适用场景

适用场景：二分类任务（如支持向量机）。

特点

对正确分类且置信度高的样本损失为 0。
对误分类样本的惩罚与置信度线性相关。

训练状态分析

损失趋近于0

损失趋近于 0：模型对大部分样本分类正确且置信度高。

损失不下降

损失不下降：模型无法找到有效的分类边界（需调整超参数或特征）。

3. Focal Loss

数学形式

𝛼：平衡类别权重的系数。
𝛾：聚焦参数 ，降低易分类样本的权重。

适用场景

适用场景：类别不平衡 问题（如目标检测中的前景-背景分类）。

特点

通过降低简单样本的权重，使模型更关注难样本。

训练状态分析

损失快速下降

损失快速下降 ：模型正在学习难样本的特征。

损失稳定后仍有波动

损失稳定后仍有波动 ：需调整 𝛾或数据增强策略。

二、回归任务常用损失函数

1. 均方误差（Mean Squared Error, MSE）

数学形式

适用场景

适用场景：连续值预测（如房价预测、温度预测）。

特点

对异常值敏感（平方放大大误差）。
输出为凸函数 ，利于梯度下降优化。

训练状态分析

损失持续下降

损失持续下降：模型正在拟合数据分布。

损失突然增大

损失突然增大：可能遇到异常值或梯度爆炸。

2. 平均绝对误差（Mean Absolute Error, MAE）

数学形式

适用场景

适用场景：对异常值敏感的回归任务（如金融风险预测）。

特点

对异常值鲁棒（线性惩罚）。
梯度恒定，可能导致收敛速度慢。

训练状态分析

损失缓慢下降

损失缓慢下降：需结合自适应优化器（如 Adam）。

损失波动小但值比较高

损失波动小但值较高：模型可能欠拟合（需增加网络容量）。

3. Huber Loss

数学形式

适用场景

适用场景：存在少量异常值的回归任务（如传感器数据预测）。

特点

结合 MSE 和 MAE 的优点，对异常值鲁棒。
需手动设定阈值 𝛿。

训练状态分析

损失平稳下降

损失平稳下降：模型在平衡大误差和小误差的优化。

需调整δ

需调整 𝛿：根据误差分布动态选择。

三、损失函数值与训练状态的关系

损失函数行为可能原因解决方案
训练损失持续下降 模型正常学习中 持续监控验证集损失
验证损失上升 过拟合 增加正则化（Dropout, L2）、数据增强

损失震荡剧烈 学习率过高或批量过小 降低学习率、增大批量大小
损失长期不下降 模型容量不足、梯度消失/爆炸 加深网络、使用残差连接、调整初始化
训练/验证损失均高 欠拟合 增加模型复杂度、减少正则化、延长训练

四、总结

分类任务

分类任务：优先选择交叉熵损失 ，处理不平衡数据时使用 Focal Loss。

回归任务

回归任务：根据**异常值情况选择 MSE（平滑优化）**或 MAE/Huber（鲁棒性）。

监控策略

同时观察训练集和验证集损失 ，判断过拟合/欠拟合 。

使用学习率调度器（如 ReduceLROnPlateau）动态调整优化速度。