clip_grad_norm_ 梯度裁剪

torch.nn.utils.clip_grad_norm_ 函数是用来对模型的梯度进行裁剪的。在深度学习中,经常会使用梯度下降算法来更新模型的参数,以最小化损失函数。然而,在训练过程中,梯度可能会变得非常大,这可能导致训练不稳定甚至梯度爆炸的情况。

裁剪梯度的作用是限制梯度的大小,防止它们变得过大。裁剪梯度的常见方式是通过计算梯度的范数(即梯度向量的长度),如果梯度的范数超过了设定的阈值,则对梯度向量进行缩放,使其范数等于阈值。

复制代码
torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)  

对模型的参数的梯度进行裁剪,限制其范数为1.0。这有助于防止梯度爆炸,提高训练的稳定性

深层神经网络 中常用,避免梯度爆炸

相关推荐
weixin_468466853 分钟前
千问大模型在阿里生态中的实战应用指南
大数据·人工智能·深度学习·ai·大模型·智能交互·自动应答
kTR2hD1qb17 分钟前
Claude Code Skill的介绍与使用
java·前端·数据库·人工智能
qq_3909347418 分钟前
Cursor使用教程
人工智能
码农小白AI20 分钟前
规范档案复核流程,IACheck+AI 报告审核满足资质监管要求
人工智能
Luhui Dev23 分钟前
大角几何 MCP 服务上线:让 AI Agent 直接完成几何作图
人工智能·数学·机器学习·大角几何·luhuidev
纤纡.25 分钟前
阿里云 DSW 实战:从零完成 Qwen3-4B 大模型 LoRA 微调全流程
人工智能·阿里云·语言模型·云计算
AI视觉网奇32 分钟前
3d 打印模型修复
人工智能·3d
“码”力全开43 分钟前
深度解析:基于 Docker 与边缘计算的 AI 视频管理平台架构——打通 GB28181/RTSP 协议与“源码交付”的高效集成方案
人工智能·docker·边缘计算
wangqiaowq1 小时前
预训练 后预训练 微调
人工智能·深度学习·机器学习
LONGZETECH1 小时前
架构师实战拆解|无人机智慧实训SaaS中台:断电续考、AI组卷、多端同步核心设计
大数据·人工智能·架构·系统架构·无人机