clip_grad_norm_ 梯度裁剪

torch.nn.utils.clip_grad_norm_ 函数是用来对模型的梯度进行裁剪的。在深度学习中,经常会使用梯度下降算法来更新模型的参数,以最小化损失函数。然而,在训练过程中,梯度可能会变得非常大,这可能导致训练不稳定甚至梯度爆炸的情况。

裁剪梯度的作用是限制梯度的大小,防止它们变得过大。裁剪梯度的常见方式是通过计算梯度的范数(即梯度向量的长度),如果梯度的范数超过了设定的阈值,则对梯度向量进行缩放,使其范数等于阈值。

复制代码
torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)  

对模型的参数的梯度进行裁剪,限制其范数为1.0。这有助于防止梯度爆炸,提高训练的稳定性

深层神经网络 中常用,避免梯度爆炸

相关推荐
刺猬的温驯6 小时前
Flow Matching 训练的输入分布问题:从 VAE Latent 统计性质到归一化工程实践——以 VoxFlash-TTS 为例
人工智能·语音合成·tts
机器之心6 小时前
近80年后,埃尔德什经典「拉姆齐数下界」,被三位中国学者首次指数级改进
人工智能·openai
机器之心6 小时前
Nvidia都在点赞的LoopWM世界模型,竟然来自一家中国初创FaceMind?
人工智能·openai
美团技术团队7 小时前
LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆
人工智能·算法
moMo7 小时前
从“你好”到 1024 维坐标:大模型怎么识字
人工智能
ShallWeL7 小时前
【机器学习】(2)—— 线性回归:损失函数
人工智能·机器学习
美团技术团队8 小时前
ICML 2026 | 美团技术团队学术论文精选
人工智能
moMo8 小时前
你的每一次对话,都是第一次
人工智能
不加辣椒8 小时前
第13章 检索增强提示工程
人工智能
小爷毛毛_卓寿杰8 小时前
我把 397B 的「Agentic 大脑」塞进了 Xinference,一键部署 Nex-N2
人工智能·架构·github