BCEWithLogitsLoss

BCELoss------Binary Cross Entropy二元交叉熵损失

用来衡量 "两个概率分布之间距离" 。

简单说就是：你的预测值（0~1的概率）和真实值（0或1）离得有多远？

对于每一个样本，假设：

y : 真实标签 (Target)，取值只能是 0 或 1。
x : 模型预测的概率 (Input)，取值范围 [0, 1]。（这里必须已经经过 Sigmoid 处理）。

Logits : 指的是模型最后一层全连接层输出的原始数值 ，也就是没有经过 Sigmoid 激活函数的数值。范围是**(−∞,+∞)**。

BCEWithLogitsLoss = Sigmoid +BCELoss

令 x 为模型的输出 Logits**(−∞,+∞)** ,标准的BCELoss:

但这样直接手动计算log(sigmoid(x))，当 x 非常大或非常小时（例如 x=100或 x=−100），Sigmoid 函数会输出极其接近 1 或 0 的值。计算机的浮点数精度有限，可能会导致：

下溢（Underflow）: log⁡(0)log(0) 会变成负无穷（−∞ / NaN）。

梯度消失/爆炸: 在反向传播时导致数值不稳定。

BCEWithLogitsLoss 使用了 LogSumExp 技巧 （Log-Sum-Exp Trick）在数学层面上进行了化简，避免了直接计算 log⁡(σ(x))，从而保证了数值稳定性。

这个公式避免了直接对极小值取对数，无论 xx 是正无穷还是负无穷，计算结果都不会溢出。

python 复制代码

import torch
import torch.nn as nn

# 1. 定义 Loss
criterion = nn.BCEWithLogitsLoss()

# 2. 模拟模型输出 (Logits)
# 假设 batch_size=3，是个二分类问题，输出维度为 (3, 1)
# 注意：这里不需要加 torch.sigmoid()
logits = torch.tensor([[-10.0], [0.1], [5.0]], requires_grad=True)

# 3. 定义标签 (Target)
# 标签必须是 float 类型，且维度与 logits 一致
targets = torch.tensor([[0.0], [1.0], [1.0]])

# 4. 计算 Loss
loss = criterion(logits, targets)

print(f"Loss: {loss.item()}")

# 验证数值稳定性：
# 第一样本 logits=-10 (很小), target=0 -> 预测正确，loss应很小
# 第三样本 logits=5 (很大), target=1 -> 预测正确，loss应很小