深度学习中的混合精度训练

一、混合精度训练是什么?

混合精度训练 = 训练时同时用 FP16/BF16(快、省显存)+ FP32(稳、防梯度消失),

在几乎不掉精度的前提下,大幅提速、省显存。

·FP32:默认精度,稳,但慢、占显存

·FP16 / BF16:半精度,快、显存减半,但容易梯度下溢(变 0)

·混合精度:让该快的快,该稳的稳

二、核心原理(3 个关键点)

1. 为什么要用半精度?

显存减半:参数 / 激活从 4B → 2B

计算更快:GPU Tensor Core 专门加速 FP16/BF16

带宽压力减半:数据搬运更快

2. 直接全用 FP16 会崩,为什么?

梯度通常非常小 → FP16 表示范围窄 → 梯度直接变成 0 → 模型不收敛。

3. 混合精度怎么解决?

三大技术:

FP32 权重主副本(参数更新必须用 FP32)

损失缩放 Loss Scaling(把 loss 放大,防止梯度下溢)

自动精度调度(conv/matmul 用 FP16,loss/softmax 用 FP32)

三、混合精度训练具体怎么实现(标准流程)

标准 5 步(NVIDIA 官方)

1.模型权重存 FP32 主副本

权重实际存在 FP32主本,FP16的副本

2.前向传播用 FP16

前向计算用 权重的FP16 副本。

3.Loss 缩放(FP16 需要)

loss × scale → 梯度变大 → 不会变成 0,更新参数前 ÷ scale → 恢复真实值

4.反向传播算 FP16 梯度

反向传播时使用FP16

5.梯度转回 FP32,更新主权重

梯度算完 → 转回 FP32 更新主权重

四、哪些必须跑 FP32?

Softmax,LayerNorm / BatchNorm,Loss 计算,小梯度累加操作等操作需使用FP32,调用autocast 会自动实现混合精度计算,不用手动实现。

相关推荐
知识浅谈1 小时前
人工智能日报 每日AI新闻(2026年6月1日):全球数据中心投资升温、Copilot计费争议发酵,国内具身智能与辅助驾驶加速落地
人工智能·copilot
小白学大数据1 小时前
业务落地:Python 列表在 AI 接口开发中的实战应用
人工智能·爬虫·python·microsoft
Litluecat1 小时前
2026年5月31日科技热点新闻
人工智能·科技·热点·新闻·每日·速览
CET中电技术1 小时前
PMC-1316智能通信网关机全协议兼容,边缘计算安全可靠加速智能化!
人工智能·边缘计算
零壹AI实验室1 小时前
NVIDIA RTX Spark深度测评:个人AI智能体时代真的来了?
人工智能·ajax·spark
大势智慧1 小时前
矿影安巡版|无人机自主巡检,AI识别隐患,筑牢矿山安全防线
人工智能·安全·无人机·升级·智慧矿山·空间智能·露天矿山
searchforAI1 小时前
怎么把视频里的PPT提取出来?视频转图文笔记完整方案
人工智能·笔记·gpt·ai·音视频·语音识别·ppt
弗锐土豆1 小时前
AI-基于RAG架构的分层AI物资编码治理方案
人工智能·ai·架构·物资编码
Xpower 171 小时前
Codex 桌面端更新后 Chrome 插件和 Computer Use 不可用,怎么排查和修复
前端·人工智能·chrome·python·学习