Softmax算法使用简介全文链接:Softmax算法使用简介Softmax 函数把任意长度的实数向量(常称 logits)唯一地变换为同一长度的向量:各分量在 (0,1) 上,且和为 1,因而常作为多类分类输出层的归一化概率表示。与 Sigmoid 处理二分类或逐元素“概率”不同,Softmax 在类别之间是互斥、竞争的;实现上多配合 对数似然/交叉熵 作损失。在大语言模型中,同一形式还用于下一词分布与注意力权重;采样温度在推理中调节下一词 Softmax 的尖锐/平坦程度。本文从名称与来源、场景、定义与手算、温度等扩展、LLM