BCEWithLogitsLoss

BCELoss------Binary Cross Entropy二元交叉熵损失

用来衡量 "两个概率分布之间距离" 。

简单说就是:你的预测值(0~1的概率)和真实值(0或1)离得有多远?

对于每一个样本,假设:

  • y : 真实标签 (Target),取值只能是 01

  • x : 模型预测的概率 (Input),取值范围 0, 1。(这里必须已经经过 Sigmoid 处理)。


BCEWithLogitsLoss

Logits : 指的是模型最后一层全连接层输出的原始数值 ,也就是没有经过 Sigmoid 激活函数的数值。范围是**(−∞,+∞)**。

BCEWithLogitsLoss = Sigmoid +BCELoss

令 x 为模型的输出 Logits**(−∞,+∞)** ,标准的BCELoss:

但这样直接手动计算log(sigmoid(x)),当 x 非常大或非常小时(例如 x=100或 x=−100),Sigmoid 函数会输出极其接近 1 或 0 的值。计算机的浮点数精度有限,可能会导致:

  • 下溢(Underflow): log⁡(0)log(0) 会变成负无穷(−∞ / NaN)。

  • 梯度消失/爆炸: 在反向传播时导致数值不稳定。

BCEWithLogitsLoss 使用了 LogSumExp 技巧 (Log-Sum-Exp Trick)在数学层面上进行了化简,避免了直接计算 log⁡(σ(x)),从而保证了数值稳定性

这个公式避免了直接对极小值取对数,无论 xx 是正无穷还是负无穷,计算结果都不会溢出。


python 复制代码
import torch
import torch.nn as nn

# 1. 定义 Loss
criterion = nn.BCEWithLogitsLoss()

# 2. 模拟模型输出 (Logits)
# 假设 batch_size=3,是个二分类问题,输出维度为 (3, 1)
# 注意:这里不需要加 torch.sigmoid()
logits = torch.tensor([[-10.0], [0.1], [5.0]], requires_grad=True)

# 3. 定义标签 (Target)
# 标签必须是 float 类型,且维度与 logits 一致
targets = torch.tensor([[0.0], [1.0], [1.0]])

# 4. 计算 Loss
loss = criterion(logits, targets)

print(f"Loss: {loss.item()}")

# 验证数值稳定性:
# 第一样本 logits=-10 (很小), target=0 -> 预测正确,loss应很小
# 第三样本 logits=5 (很大), target=1 -> 预测正确,loss应很小
相关推荐
HackTorjan2 小时前
2026年5月29日:全球首个通用人工智能操作系统正式发布,开启人机协同新纪元
人工智能
刘大猫.2 小时前
智造短剧新引擎:火山引擎上线「火山剧创 1.0」,制作效率提升 80%
人工智能·ai·chatgpt·机器人·大模型·火山引擎·短剧新引擎
红尘散仙3 小时前
我把终端小说阅读器接上了 AI Agent:TRNovel 现在能用 skill 生成书源了
人工智能·后端·rust
雅菲奥朗3 小时前
企业级 AI 自动化|OpenClaw 龙虾实战与认证
运维·人工智能·自动化·openclaw
HIT_Weston3 小时前
99、【Agent】【OpenCode】task 工具提示词(Slash command)(一)
人工智能·agent·opencode
25 Hz3 小时前
Mind 爱好者时空表征刊 第24期 | 时间结构学习、空间对时间表征的补偿、事件内部的时间扭曲……
人工智能
心中有国也有家3 小时前
GE图引擎深度解析——CANN的计算图优化与执行引擎
人工智能·pytorch·python·学习·numpy
海兰3 小时前
【文字三国志:第一篇】天命重构,大语言模型(LLM)动态生成文言风格的叙事文本的文字游戏
人工智能·游戏·语言模型
cxr8284 小时前
高分子复合材料 AI 逆向设计合——验证闭环、决策优化与中试放大
人工智能·材料逆向设计合成
litble4 小时前
如何速成LLM以伪装成一个AI研究者(6)——LoRA,Adapter,P-tuning,量化,QLoRA
人工智能·lora·量化·peft·qlora·高效微调