YOLO 算法为何使用 BCE(二元交叉熵)损失

一、前置基础:两种损失搭配的核心区别(通俗理解)

1. Softmax + 多分类交叉熵

  • 本质:单选题,类别互斥
  • 规则:所有类别概率之和必须 = 1,各类别相互"竞争",拉高一类概率就会压低其他类
  • 适用场景:普通图像分类(一张图/一个目标只属于单一类别)

2. Sigmoid + BCE(二元交叉熵)

  • 本质:多选题 / 独立判断题,类别相互独立
  • 规则:每个类别单独输出 0~1 概率,概率和无要求,类别之间互不干扰
  • 适用场景:可同时存在多个类别、二分类判断(是/否)

二、YOLO 中 BCE 的使用位置

YOLO 损失分为三部分,分类分支、置信度分支使用 BCE,边框回归不使用:

  1. 分类分支(cls) :判断预测框内存在哪些目标类别 → Sigmoid + BCE
  2. 置信度分支(obj) :判断预测框内「有没有物体」→ Sigmoid + BCE
  3. 边框回归(box):预测框坐标、尺寸 → 使用 CIoU/GIoU/DIoU 等回归损失

三、核心原因(结合实例讲解)

(一)分类分支:必须用 BCE,不能用 Softmax

目标检测是多标签场景,和普通分类逻辑完全不同。

反例:使用 Softmax(旧版 YOLOv2 及更早方案)

假设画面同一区域同时出现行人 + 自行车

Softmax 强制"只能选一类",想提高"行人"概率,就必须压低"自行车"概率,两类目标互相干扰,模型无法识别共存物体,预测效果差。

正例:使用 BCE(YOLOv3/v5/v8 通用方案)

将每个类别拆成独立判断题:

  • 有没有行人?→ 概率 0.9
  • 有没有自行车?→ 概率 0.8
  • 有没有汽车?→ 概率 0.1
    各类别互不影响,完美支持一个区域同时存在多个目标/属性(如行人+戴口罩)。

额外优势:

  • 拓展性强:增删类别只需调整输出通道,无需改动整体逻辑;
  • 缓解类别不平衡:各类别独立计算梯度,不会被大样本类别主导训练。

(二)置信度分支:天生适配 BCE

置信度任务是纯二分类

  • 标签 1:框内有真实物体
  • 标签 0:框内只有背景(天空、地面、墙壁等)

这类"有/无"的判断题,是 BCE 的经典使用场景,逻辑简单、匹配度高。

(三)为何淘汰早期的 MSE(均方误差)

YOLOv1 曾用 MSE 做置信度/分类损失,后续全面替换为 BCE:

  1. 惩罚力度:MSE 仅计算数值差,对严重错误惩罚弱,模型纠错慢;BCE 对错误预测惩罚更强,模型收敛更快。
  2. 训练稳定性:Sigmoid 激活搭配 MSE 易出现梯度消失,网络难以更新参数;BCE 梯度更合理,训练更稳定。

四、YOLO 损失函数版本演变

算法版本 分类损失 置信度损失 存在问题
YOLOv1 MSE MSE 梯度易消失,纠错能力弱
YOLOv2 Softmax+多分类交叉熵 MSE 类别互斥,不支持多标签
YOLOv3 及以后 BCE BCE 解决以上所有问题,成为标准方案

五、精简总结(记忆要点)

  1. Softmax = 单选题(类别互斥),BCE = 多选题/判断题(类别独立);
  2. YOLO 检测场景常出现多目标共存,分类分支只能用 BCE;
  3. 置信度是"有无物体"的二分类,天然适配 BCE;
  4. 相比 MSE,BCE 训练更稳定、纠错能力更强,是 YOLO 的最优选择。
相关推荐
玖釉-3 小时前
下一个排列:从字典序到原地算法的完整推导
数据结构·c++·windows·算法
IronMurphy3 小时前
【算法五十】62. 不同路径
算法
影寂ldy3 小时前
C#一维数组
算法
过期动态4 小时前
【LeetCode 热题 100】移动零
java·数据结构·算法·leetcode·职场和发展·rabbitmq
计算机安禾5 小时前
【算法分析与设计】第10篇:下界理论与NP完全性初步
大数据·人工智能·算法
水木流年追梦6 小时前
大模型入门-大模型分布式训练2
开发语言·分布式·python·算法·正则表达式·prompt
sali-tec6 小时前
C# 基于OpenCv的视觉工作流-章78-KRT测量
图像处理·人工智能·数码相机·opencv·算法·计算机视觉
菜菜的顾清寒6 小时前
力扣HOT100(32)二叉树的中序遍历
数据结构·算法·leetcode
x2c6 小时前
数据结构:线性表中链表的建立和基本操作(C)
算法