clip_grad_norm_ 梯度裁剪

torch.nn.utils.clip_grad_norm_ 函数是用来对模型的梯度进行裁剪的。在深度学习中,经常会使用梯度下降算法来更新模型的参数,以最小化损失函数。然而,在训练过程中,梯度可能会变得非常大,这可能导致训练不稳定甚至梯度爆炸的情况。

裁剪梯度的作用是限制梯度的大小,防止它们变得过大。裁剪梯度的常见方式是通过计算梯度的范数(即梯度向量的长度),如果梯度的范数超过了设定的阈值,则对梯度向量进行缩放,使其范数等于阈值。

复制代码
torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)  

对模型的参数的梯度进行裁剪,限制其范数为1.0。这有助于防止梯度爆炸,提高训练的稳定性

深层神经网络 中常用,避免梯度爆炸

相关推荐
User_芊芊君子1 小时前
AI Ping 深度评测:大模型 API 选型的 “理性决策中枢”,终结经验主义选型时代
人工智能
明天再做行么2 小时前
一些我用人工智能 翻译文章的心得
人工智能
晚霞的不甘8 小时前
小智AI音箱:智能语音交互的未来之选
人工智能·交互·neo4j
java1234_小锋8 小时前
Transformer 大语言模型(LLM)基石 - Transformer架构介绍
深度学习·语言模型·llm·transformer
飞Link8 小时前
【网络与 AI 工程的交叉】多模态模型的数据传输特点:视频、音频、文本混合通道
网络·人工智能·音视频
yLDeveloper8 小时前
一只菜鸟学深度学习的日记:填充 & 步幅 & 下采样
深度学习·dive into deep learning
老蒋新思维8 小时前
创客匠人峰会实录:知识变现的场景化革命 —— 创始人 IP 如何在垂直领域建立变现壁垒
网络·人工智能·tcp/ip·重构·知识付费·创始人ip·创客匠人
老蒋新思维8 小时前
创客匠人峰会深度解析:智能体驱动知识变现的数字资产化路径 —— 创始人 IP 的长期增长密码
人工智能·网络协议·tcp/ip·重构·知识付费·创始人ip·创客匠人
为爱停留8 小时前
Spring AI实现RAG(检索增强生成)详解与实践
人工智能·深度学习·spring
像风没有归宿a9 小时前
2025年人工智能十大技术突破:从AGI到多模态大模型
人工智能