Focal Loss：解决长尾图像分类中“多数类太强势”的损失函数

1. 图像分类里为什么需要 Focal Loss？

在真实的图像分类任务中，你经常会遇到：

类别不均衡 / 长尾分布

头部类别样本很多，尾部类别样本很少（例如 10000:10）。
训练被"容易样本"主导

多数类样本多、而且往往更容易，模型很快就能把它们分对；但它们数量巨大，导致训练过程中的++梯度贡献仍主要来自这些样本++，尾部类/难样本的信号被淹没。

Focal Loss 的核心目标就是一句话：

降低"容易样本"的损失权重，让训练更关注"难样本"和"少数类"

图像分类常见是 多分类 softmax。设：

softmax公式定义：。++（将 Logits 映射到 [0, 1]之间，且总和为 1）++

多分类交叉熵：

交叉熵在长尾场景的问题：

交叉熵会对每个样本都"认真对待"。当多数类样本数量巨大时，即使它们早已变成 easy samples（接近 1），总体上仍会累积出大量损失/梯度贡献，使优化方向更偏向多数类。

Focal Loss 的关键做法是：给交叉熵乘上一个随样本难度变化的权重项。

在多分类中，直接令，真实类别概率：

其中：

关键在这项：

给一个"可读性强"的小例子（不依赖公式渲染也能看懂）：

经验判断：

在图像分类长尾中，通常设置为"每类一个权重"。常见做法包括：

++不太建议直接上 Focal Loss 的情况：++

Focal Loss 可以看作是"交叉熵 + 动态难度加权"。在长尾图像分类中，它通过自动降低大量 easy 样本的影响，让训练把更多注意力放在难样本与少数类上 ；配合的类别权重，通常能显著改善尾部类别的召回与 macro 指标（ 确保那些样本稀少的类别也能被正确地识别*）*。