Temperature 与 Top-p：控制模型输出的两个参数

一、前置基础：大模型生成文本的核心逻辑

在理解两个参数前，先要搞懂大语言模型的生成本质，这是所有采样参数的底层前提：

自回归生成机制 大语言模型生成文本是逐 token 生成的：输入上文内容后，模型会预测 "下一个位置所有可能出现的 token" 的概率，从中选一个输出；再把这个输出的 token 加入上文，继续预测下一个，循环往复直到生成结束。我们看到模型 "一句话一句话输出"，底层其实是一个词一个词依次预测出来的。
logits 与 Softmax 层 模型内部计算后，首先会给每个候选 token 输出一个原始分数（叫 logits），分数越高代表模型认为这个 token 越可能是下一个词。而 Softmax 是模型输出层的计算函数，作用是把所有原始分数，转换成「0~1 之间、总和为 1」的标准概率分布，这样每个 token 都有了自己的出现概率。
采样从 Softmax 输出的概率分布里，选出一个 token 作为最终输出的过程，就叫采样。Temperature 和 Top-p 都是用来干预采样过程、控制输出随机性的参数，只是作用的维度完全不同。

Temperature 作用于模型输出层 Softmax 的概率分布，控制概率分布的"尖锐程度" ：

温度参数直接作用在 Softmax 的计算过程中，核心作用是拉大或缩小不同 token 之间的概率差距，也就是控制概率分布的 "尖锐 / 平坦程度"。

公式 P(x_i) = exp(z_i / T) / Σ exp(z_j / T) 中：

z_i 是第 i 个 token 的原始分数，T 就是温度值
温度值 T 放在分母上：
- T 越小，原始分数被放大得越厉害，高分和低分的差距会被急剧拉开，概率会高度集中在少数高分 token 上；
- T 越大，原始分数被压缩得越平，高低分的差距会被抹平，原本概率很低的 token 也会获得更多出场机会。

温度值	核心原理	实际效果	适用场景
T 趋近于 0（0.1-0.3）	概率差距被极度放大，几乎只有概率最高的 token 有机会被选中	输出非常固定、保守、重复率高，几乎不会有意外内容， factual 准确性高，但灵活性差	代码生成、数学推理、事实问答、数据提取等要求严谨、不能出错的场景
T = 1	不对原始分数做缩放，保持模型原生的概率分布	输出最符合模型训练的 "自然状态"，连贯性和多样性处于均衡水平	基础的文本生成、通用对话
T > 1（1.2-1.5）	概率差距被压缩，低概率 token 的权重被提升	输出更发散、更有创造性，会出现更多意料之外的表达，但逻辑出错、事实幻觉的概率同步上升	创意写作、头脑风暴、人设化闲聊
T 过高（>2）	概率分布几乎被拉平，所有 token 的概率趋近一致	输出完全失去逻辑，变成随机拼凑的字词，丧失语义连贯性	无实用场景

Top-p 不改变 token 之间的概率比例，而是直接划定一个采样的候选池：只保留概率最高的一部分 token，剩下的低概率 token 直接排除，不参与采样。

在 Top-p 出现之前，常用的是 Top-k 采样：固定选取概率最高的前 k 个 token，只在这 k 个里面采样。它有两个明显缺陷：

如果上下文非常确定（比如 "中华人民共和国成立于___"），第 1 个 token 概率就有 99%，剩下 k-1 个都是概率极低的无效选项，反而会给输出引入不必要的噪声；
如果上下文非常开放（比如 "我的爱好是___"），可能前 50 个 token 都有合理的概率，但固定 k=10 就会砍掉很多合理选项，限制了输出的多样性。

Top-p 用 "累积概率阈值" 替代了 "固定数量"，实现了候选集的自适应，步骤是：

示例（假设 p=0.9）：

Token	原始概率	累积概率	是否入选
"苹果"	0.5	0.5	✅
"香蕉"	0.3	0.8	✅
"橙子"	0.15	0.95	✅（刚好超过0.9）
"榴莲"	0.04	0.99	❌
"西瓜"	0.01	1.0	❌

以文中 p=0.9 的例子来说："苹果"（0.5）+"香蕉"（0.3）+"橙子"（0.15）= 0.95，刚好超过 0.9，所以候选集只有这 3 个，"榴莲""西瓜" 直接被排除，不会有机会被选中。

自适应大小：模型越确定的场景，候选集越小（极端情况只剩 1 个 token，等价于直接选最高分）；模型越不确定的开放场景，候选集自动扩大，兼顾了确定性和多样性。
精准截断长尾：直接过滤掉概率极低的 "离谱选项"，既保留了合理的发散空间，又避免了完全无意义的随机内容。

两个参数都影响采样的随机性，但作用的维度完全不同，是互补关系：

两者通常搭配使用，不同场景的搭配逻辑如下：

严谨任务（代码、推理、事实问答） ：低温度（0.1-0.3）+ 低 Top-p（0.1-0.5）逻辑：低温度让概率高度集中，低 Top-p 进一步砍掉所有低概率选项，最大程度保证输出的确定性和准确性，几乎不允许发散。
通用对话 / 常规写作：中等温度（0.7-0.8）+ 中等 Top-p（0.9-0.95）逻辑：在保证语义连贯、逻辑通顺的基础上，保留适度的多样性，避免输出过于死板重复。
创意类任务（小说、诗歌、头脑风暴） ：偏高温度（0.9-1.2）+ 高 Top-p（0.95-1.0）逻辑：放大发散空间，让更多合理但小众的表达有机会出现，最大化输出的创造性。

当温度设为 0 时，Softmax 输出的概率会完全集中在 1 个最高分 token 上（等价于 "贪心解码"），此时无论 Top-p 设成多少，候选集里都只有 1 个 token，Top-p 参数完全失效。

这个说法不准确。两个参数最终都会影响输出的随机性和稳定性，只是作用方式不同：

很多人以为温度越高越有创意、Top-p 越大越全面，但极端参数往往适得其反：