clip_grad_norm_ 梯度裁剪

torch.nn.utils.clip_grad_norm_ 函数是用来对模型的梯度进行裁剪的。在深度学习中,经常会使用梯度下降算法来更新模型的参数,以最小化损失函数。然而,在训练过程中,梯度可能会变得非常大,这可能导致训练不稳定甚至梯度爆炸的情况。

裁剪梯度的作用是限制梯度的大小,防止它们变得过大。裁剪梯度的常见方式是通过计算梯度的范数(即梯度向量的长度),如果梯度的范数超过了设定的阈值,则对梯度向量进行缩放,使其范数等于阈值。

复制代码
torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)  

对模型的参数的梯度进行裁剪,限制其范数为1.0。这有助于防止梯度爆炸,提高训练的稳定性

深层神经网络 中常用,避免梯度爆炸

相关推荐
风象南1 小时前
Token太贵?我用这个数据格式把上下文窗口扩大2倍
人工智能·后端
NAGNIP10 小时前
轻松搞懂全连接神经网络结构!
人工智能·算法·面试
moshuying11 小时前
别让AI焦虑,偷走你本该有的底气
前端·人工智能
董董灿是个攻城狮12 小时前
零基础带你用 AI 搞定命令行
人工智能
喝拿铁写前端14 小时前
Dify 构建 FE 工作流:前端团队可复用 AI 工作流实战
前端·人工智能
阿里云大数据AI技术15 小时前
阿里云 EMR Serverless Spark + DataWorks 技术实践:引领企业 Data+AI 一体化转型
人工智能
billhan201615 小时前
MCP 深入理解:协议原理与自定义开发
人工智能
Jahzo15 小时前
openclaw桌面端体验--ClawX
人工智能·github
billhan201615 小时前
Agent 开发全流程:从概念到生产
人工智能