Pytorch中的CrossEntropyLoss

讨厌编程但喜欢LLM的学院派2024-12-14 19:23

CrossEntropyLoss 的输入要求

在 PyTorch 中，CrossEntropyLoss 有以下要求：

• N 是样本数（或批次大小）。

• C 是类别数。

• ... 是额外的维度（例如序列长度、图像的高度和宽度等）。

其中重点为：PyTorch 的 CrossEntropyLoss要求输入张量的第二个维度必须是类别的个数，无论是 1D 数据、序列数据还是高维数据，这个要求都是一致的。第二维度始终对应分类任务中的类别数 (num_classes)，这是 CrossEntropyLoss 的固定设计。

为什么第二维度必须是类别数？

CrossEntropyLoss 的计算方式基于每个样本的预测概率分布和真实类别标签：

对于每个样本或位置，CrossEntropyLoss 期望提供一个类别分布的 logits（未经过 softmax 的分值），这个分布存储在输入张量的第二维度。
损失函数会沿着第二维度（类别维度）计算每个样本的交叉熵损失。

换句话说，第二维度的每个值代表每个类别的 logits，这些 logits 会通过内部的 log_softmax 转换成对数概率，用于交叉熵计算。