大模型推理(九):采样温度

舍入误差只是影响模型输出的很小的一部分,更常见的大部分变化来自于概率、随机性和上下文的相互作用。

在生成回复的最后阶段,模型不会选择一个"预先确定"的词,而是会计算词汇表的概率分布:

p(w_i \mid \text{context}) = \frac{e^{z_i / T}}{\sum_j e^{z_j / T}}

其中 z_i 是模型的 logits(分数),T 是温度参数。然后模型会从这个分布中抽样,换句话说,模型会掷一个加权骰子。

  • 当 T = 1 时:你得到了正常的softmax分布。

  • 当 T < 1 时:除以较小的数会使指数更陡峭,模型变得更有信心,几乎是确定性的。

  • 当 T > 1 时:除以较大的数会使分布更平坦,随机性更强,后续单词的多样性也更强。

因此,如果两个词的概率接近,比如:p("美丽的") = 0.32,p("可爱的") = 0.30。那么它们都可能被选中,句子的表达方式也会略有不同。即使整体含义保持不变,每次穿过语言空间的路径也可能不同。

然而,每个新词的产生都会改变输入语境!一旦选择了不同的词,所有后续的概率都会随之变化。这是一种混沌敏感性:微小的初始差异会导致后续语境的巨大变化,就像概率空间中的蝴蝶效应一样。

这就是为什么对同一个问题进行两次运行,听起来可能都像是同一个模型在说话,但永远不会完全相同。

采样温度 T 具有受控随机性。如果将温度 T 设为 0,模型会停止采样,并始终选择最有可能的下一个词。这就是确定性模式,每次都会得到相同的措辞。更高的 T 值会增加多样性和创造性,但可预测性会降低。

因此,这种明显的不一致性并非 bug,它实际上是设计的一部分,旨在平衡稳定性和自发性。

一些次要技术原因也影响输出结果,包括:GPU/TPU 硬件上的浮点不确定性可能会导致矩阵运算出现微小的变​​化;并行性,不同的线程或计算分片以略微不同的顺序完成;训练中的自适应优化可能会导致权重更新出现细微的差异,等等。所有这些微观效应都会累积成模型输出的结果差异。

相关推荐
小满Autumn6 小时前
log4net 日志框架 — 从配置到实战速查手册
笔记·c#·.net·wpf·上位机·log4net
硅谷秋水11 小时前
面向长上下文自动驾驶的规划对齐Token压缩
人工智能·深度学习·机器学习·计算机视觉·自动驾驶
神奇元创12 小时前
商用级光路加速卡:大模型推理的极速落地方案
python·神经网络·fpga开发·dsp开发
袁小皮皮不皮13 小时前
1.HCIP BFD 学习笔记(优化版)
服务器·网络·笔记·网络协议·学习·智能路由器·ip
装不满的克莱因瓶13 小时前
【自动驾驶领域】学习 Cityscapes 数据集——城市街景语义理解的标准基准
人工智能·pytorch·python·深度学习·学习·机器学习·自动驾驶
FL162386312913 小时前
户外垃圾类型检测数据集VOC+YOLO格式4278张10类别
人工智能·yolo·机器学习
一一哥Sun15 小时前
第06课:Transformer与注意力机制——大模型背后的秘密武器
人工智能·深度学习·transformer
咋吃都不胖lyh16 小时前
DBSCAN(基于密度的空间聚类应用与噪声)算法
人工智能·机器学习
青山如墨雨如画16 小时前
【北邮-无线通信中的人工智能】物理层技术中AI的应用实践:基于KNN的调制识别(1)理论基础
人工智能·python·机器学习·matlab·jupyter
LaughingZhu16 小时前
Product Hunt 每日热榜 | 2026-06-12
人工智能·经验分享·深度学习·神经网络·产品运营