clip_grad_norm_ 梯度裁剪

torch.nn.utils.clip_grad_norm_ 函数是用来对模型的梯度进行裁剪的。在深度学习中,经常会使用梯度下降算法来更新模型的参数,以最小化损失函数。然而,在训练过程中,梯度可能会变得非常大,这可能导致训练不稳定甚至梯度爆炸的情况。

裁剪梯度的作用是限制梯度的大小,防止它们变得过大。裁剪梯度的常见方式是通过计算梯度的范数(即梯度向量的长度),如果梯度的范数超过了设定的阈值,则对梯度向量进行缩放,使其范数等于阈值。

复制代码
torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)  

对模型的参数的梯度进行裁剪,限制其范数为1.0。这有助于防止梯度爆炸,提高训练的稳定性

深层神经网络 中常用,避免梯度爆炸

相关推荐
爱摸鱼的打工仔1 分钟前
【VLLM启动大模型共享内存不足-AI知识点】
人工智能
初心未改HD1 分钟前
深度学习之正则化技术详解
人工智能·深度学习
user29876982706541 分钟前
三、Skills 进阶:Fork 模式与上下文控制
人工智能
闵孚龙2 分钟前
Claude Code CLAUDE.md 用户指令覆盖层全解析:AI Agent 记忆系统、上下文工程、规则分层、团队协作与安全治理
人工智能·安全
X54先生(人文科技)2 分钟前
《元创力》纪实录·卷宗2.1 观测续篇试纸:当“社会性死亡”的叙事进入审核队列
人工智能·开源·ai写作·零知识证明
Hector_zh2 分钟前
逐浪 · 第七篇:Trae-SOLO 多端协同 —— 从安装到完成任务的完整流程
人工智能·trae
189228048616 分钟前
NV301固态MT29F32T08GWLBHD6-QJES:B
大数据·服务器·人工智能·科技·缓存
木雷坞8 分钟前
模型评测 Job 卡住:从 PodGroup 到镜像预检的排查记录
人工智能
大模型推理9 分钟前
Nano-vLLM 源码解读 - 8. Chunked Prefill
人工智能
zh252610 分钟前
深入 OpenViking:字节开源的 Agent 上下文数据库,解决了5 个问题
人工智能·开源