Focal Loss损失函数理解

简介:Focal Loss损失函数是对交叉熵损失函数的升级。是和yolo配套的

因为yolo会对图像进行网格化处理,会分出正负样本,是多目标检测,而不是简单的分类问题

1. 对比交叉熵损失的区别

多分类:CrossEntropyLoss 公式:

多目标:Focal Loss 公式:

总结多了两个系数,alpha和(1-pt)^gama

2. 分析参数alpha

个人理解:alpha是用来控制正负样本数差别太大的。负样本因为数量往往太多,而使用较小的alpha如0.25来乘以损失值,正样本因为数量往往太少,而使用较大的alpha如0.75来乘以损失值。

官方解释:

  • 类别平衡因子 α\alphaα 的主要作用是直接增加正样本(目标区域)的损失权重,减少负样本(背景区域)对总损失的贡献。
  • 当负样本远多于正样本时, α\alphaα 通常设置为正样本的权重较高(如 αpos=0.75\alpha_{\text{pos}} = 0.75αpos=0.75, αneg=0.25\alpha_{\text{neg}} = 0.25αneg=0.25)。这种方式在总损失中人为地降低了背景区域的占比

3. 分析参数(1-pt)^gama

个人理解:这个参数是站在正样本的基础上来控制损失的。对于小目标,难分辨的目标,因为往往这类目标的预测概率值(分数)很小,引入(1-pt)^gama,当小目标预测分数很小趋近0时,1-pt则会趋近1,所以就会让这类小目标的损失不变。但是容易区分的目标预测分数高,1-pt会趋近0,则会显著降低容易区分目标的损失。整体来说,就会让模型关注到这类小目标区域取降低其损失

官方解释:

4.如何减少背景区域的影响?

这两部分共同作用:

  1. 动态调整因子(1 - p_t)^gamma:

    • 对背景区域(负样本)的预测 pt 通常接近 1, (1 - p_t)^gamma 会使这些样本的损失趋近于 0,从而减少它们的影响。
    • 对于目标区域(正样本),由于 pt 较低, (1 - p_t)^gamma的值更大,使得模型更加关注这些区域。
  2. 类别平衡因子 α:

    • 人为调高目标区域的损失占比,进一步减少背景区域对总损失的贡献。

个人理解:

对于背景区域(负样本),模型认为负样本中为背景的概率趋近于1,1-pt则趋近于0,则降低了负样本的损失,让模型对负样本的学习减少。对于目标区域,模型认为负样本中为目标的概率趋近于0,1-pt则趋近于1,保持了目标区域的损失,让模型更关注目标区域的学习。

1-pt有两个作用:1. 对于负样本的训练,降低负样本的损失,减少负样本对模型的影响 2.对于正样本的训练,增加了正样本中小目标的损失,让模型更关注小目标的训练

alpha的作用只有一个,降低负样本的损失,增加正样本的损失。达到模型跟关注正样本的趋势,平衡掉负样本数量远大于正样本的影响

相关推荐
AI机器学习算法9 分钟前
深度学习模型演进:6个里程碑式CNN架构
人工智能·深度学习·cnn·大模型·ai学习路线
Ztopcloud极拓云视角21 分钟前
从 OpenRouter 数据看中美 AI 调用量反转:统计口径、模型路由与多云应对方案
人工智能·阿里云·大模型·token·中美ai
AI医影跨模态组学27 分钟前
如何将深度学习MTSR与膀胱癌ITGB8/TGF-β/WNT机制建立关联,并进一步解释其与患者预后及肿瘤侵袭、免疫抑制的生物学联系
人工智能·深度学习·论文·医学影像
搬砖的前端1 小时前
AI编辑器开源主模型搭配本地模型辅助对标GPT5.2/GPT5.4/Claude4.6(前端开发专属)
人工智能·开源·claude·mcp·trae·qwen3.6·ops4.6
Python私教1 小时前
Hermes Agent 安全加固与生态扩展:2026-04-23 更新解析
人工智能
饼干哥哥1 小时前
Kimi K2.6 干成了Claude Design国产版,一句话生成电影级的动态品牌网站
人工智能
肖有米XTKF86462 小时前
带货者精品优选模式系统的平台解析
人工智能·信息可视化·团队开发·csdn开发云
天天进步20152 小时前
打破沙盒限制:OpenWork 如何通过权限模型实现安全的系统级调用?
人工智能·安全
xcbrand2 小时前
政府事业机构品牌策划公司找哪家
大数据·人工智能·python