深度学习中的温度参数（Temperature Parameter）是什么？

不当菜鸡的程序媛2026-04-25 9:28

参考：温度系数是可学习的参数，会在训练过程中被优化器更新。

深度学习中的温度参数（Temperature Parameter）是什么？-CSDN博客

1. 温度系数的作用机制

当增大T 的值时，分布变得更加的平坦（较大的值变得更小，较小的值变得更大）；当减小T 的值使，分布变得更加尖峰（较大的值变得更大，较小的值变得更小）。

也就是说：

温度系数越小，分布越尖锐（温度系数控制剪碎程度的）

比如attention中计算每个token的得分的时候，在计算score的时候加了温度系数：

2. 为什么要这样做？

防止注意力崩溃到均匀分布：

在训练中，attn_guide_loss 使用 label smoothing 的 soft target（接近均匀分布）来监督注意力权重。如果没有温度下限约束，优化器会：

不断降低 temperature → 让 softmax 变得更平滑（趋向均匀）
极端情况 ：temperature → 0 时，softmax 完全均匀分布
这会导致 ATT模块无法聚焦到真正重要的 token，失去了 attention pooling 的意义

3. 实际例子

假设有 77 个 token（含 padding）：

temperature = 2.0：注意力权重相对均匀，每个 token 权重约 1.3%
temperature = 0.5：注意力更集中，可能 top-5 token 占 80% 权重
temperature = 0.1：极度集中，top-1 token 可能占 99%+ 权重

通过 clamp temperature ≥ 1.0，防止 softmax 过于均匀，保持注意力机制的选择性。

上一篇：【GMAC学习笔记】深入理解以太网DMA描述符机制

下一篇：Re：从零开始的 C++ 进阶篇（四）工业级 C++ 编程：如何构建异常安全的健壮系统？（含案例分析）

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03AI科技热点日报 | 2026年07月01日 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？082026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元 09Codex 下载安装指南：Windows 和 macOS 官方版下载 102026 年 AI 大模型 & AI 编程工具实战全总结