大模型训练中的 logits 是什么

简述：大模型输出的原始得分。

Logits 在中文技术文献中通常直接使用英文术语，没有统一的中文译名。

在大模型训练中，Logits 可以理解为模型对每个预测结果的"原始打分"，它直接反映了模型对不同类别的"倾向性"，但尚未转换为概率。以下是通俗解释：

直观理解

假设你问大模型："明天会下雨吗？"模型可能会输出三个选项的原始分数：
- 下雨：2.5
- 不下雨：-1.0
- 阴天：0.3
  
  这些数值就是 Logits，它们表示模型对每个选项的"信心值"，数值越大代表模型越倾向于该结果。
技术定义

Logits 是模型最后一层神经网络的原始输出，未经过任何归一化处理（如 Softmax）。它的特点是：
- 可以是任意实数（正数、负数，甚至极大/极小值）。
- 不直接代表概率（总和不一定为1）。

训练阶段：指导模型学习
- 计算损失 ：模型通过 Logits 直接计算损失（如交叉熵损失）。例如，若正确答案是"下雨"，但模型对"下雨"打分为 2.5，对"不下雨"打分为 -1.0，损失会衡量这种预测偏差。
- 反向传播：Logits 的数值差异会影响梯度更新，帮助模型调整参数，提升预测准确性。
推理阶段：决定最终预测结果
- 选择最大值 ：在预测时，模型只需取 Logits 中数值最大的那个类别。例如，[2.5, -1.0, 0.3](@ref)中最大值是 2.5，对应"下雨"。
- 避免冗余计算：直接取最大值比先转换为概率再选类别更高效。
灵活适配任务
- 多分类：如文本分类（新闻、娱乐等）。
- 生成任务：如语言模型预测下一个词时，Logits 对应词汇表中每个词的得分。

假设大模型要分类图片中的动物：

Logits 是模型输出的"原始信号"，它直接反映模型对每个选项的倾向性，是训练和推理的核心中间结果。通过 Softmax 转换后，Logits 变成可解释的概率，但实际应用中（如预测时）通常直接使用 Logits 的最大值，兼顾效率与准确性。