模型推理、调用常用参数解释(temperature、top_k、top_p）

撞强2026-04-20 11:02

温度（ temperature）影响词选择的随机性：较高的温度会增加选择不太可能词的概率，从而提高文本的多样性。较低的温度使模型的选择更加可预测。

top_k 参数将模型的选择限制为最可能的 k 个下一个 token。当 top_k 设置为 1 时，模型会选择最有可能的 token，在这种情况下，给定完全相同的提示词，其输出始终相同。我们称此为贪婪解码。当 top_k 设置为大于 1 时，模型可以考虑多个可能的下一个 token，而不仅仅是它评估为最可能的那个。当 top_k 设置为 1 时，temperature 参数没有影响；然而，当 top_k 大于 1 时，我们还可以传入一个介于 0.0 和 1.0 之间的值作为模型的 temperature。例如，当 top_k 设置为 2 时，模型从两个最可能的下一个标记中进行选择。随着温度升高，概率分布变得更加均匀，使得第二大概率的 token 被选中的机会更大；而较低的温度则使模型更倾向于在两个选项中选择最可能的 token。

在语言模型的文本生成背景下，top_p（也称为"核采样"）涉及选择一组可能的下一个标记，其累积概率略高于由 top_p 指定的阈值，该值为 0.0 到 1.0 之间的浮点数。其工作原理如下：

1、模型计算每个可能的下一个 token 的概率，并按降序排列。

2、从最可能的 token 开始，逐步将标记加入子集，直到它们的概率总和超过 top_p 阈值。

3、然后模型仅从这个子集中随机选择下一个 token。