clip_grad_norm_ 梯度裁剪

torch.nn.utils.clip_grad_norm_ 函数是用来对模型的梯度进行裁剪的。在深度学习中,经常会使用梯度下降算法来更新模型的参数,以最小化损失函数。然而,在训练过程中,梯度可能会变得非常大,这可能导致训练不稳定甚至梯度爆炸的情况。

裁剪梯度的作用是限制梯度的大小,防止它们变得过大。裁剪梯度的常见方式是通过计算梯度的范数(即梯度向量的长度),如果梯度的范数超过了设定的阈值,则对梯度向量进行缩放,使其范数等于阈值。

复制代码
torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)  

对模型的参数的梯度进行裁剪,限制其范数为1.0。这有助于防止梯度爆炸,提高训练的稳定性

深层神经网络 中常用,避免梯度爆炸

相关推荐
李铁蛋zs15 小时前
AI 前端开发培训手册
前端·人工智能
数智工坊15 小时前
《我看见的世界:李飞飞自传》第1-6章阅读笔记:从移民少女到AI教母的“看见“之旅
人工智能·笔记
我滴老baby15 小时前
Agent上线后不知道效果好不好?用Python搭建A/B测试+效果评估平台完整实战
开发语言·人工智能·python·ab测试
小二·15 小时前
AI Coding 工具横向评测:Cursor vs Claude Code vs Copilot 实测对比
人工智能·copilot
一RTOS一15 小时前
工业AI“模数共振”启幕,东土科技自主全栈能力共振新周期
人工智能·科技·鸿道实时操作系统·国产嵌入式操作系统选型·智算控一体
P-ShineBeam15 小时前
智能体-DeepAgent入门
人工智能·python·算法·语言模型·自然语言处理
threelab15 小时前
Three.js 几何体类型效果 | 三维可视化 / AI 提示词
开发语言·javascript·人工智能
北有树15 小时前
AI专题总结
人工智能
jiayong2315 小时前
Vibe Coding 使用指南
人工智能·ai·vibe coding
crazyme_615 小时前
从零到一:我们如何开发一个 AI 提示注入闯关平台
人工智能