技术栈
梯度爆炸
CM莫问
17 天前
人工智能
·
python
·
深度学习
·
算法
·
归一化
·
梯度消失
·
梯度爆炸
什么是Batch Normalization?
Batch Normalization是在2015年提出的数据归一化方法,主要用在深度神经网络中激活层之前。它的主要作用是加快模型训练时的收敛速度,使模型训练过程更加稳定,避免梯度爆炸或消失,并起到一定的正则化作用,有时甚至可以替代Dropout。
Thomas_Cai
5 个月前
深度学习
·
模型训练
·
梯度消失
·
梯度爆炸
模型训练中出现loss为NaN怎么办?
在训练的某个阶段,学习率可能设置得过高,导致模型参数更新幅度过大,甚至可能出现数值不稳定的情况。你可以尝试降低学习率,并观察训练过程中的变化。
码上飞扬
7 个月前
人工智能
·
深度学习
·
梯度消失
·
梯度爆炸
深度学习中的梯度消失和梯度爆炸问题
在深度学习领域,随着模型层数的增加,我们常常会遇到两个棘手的问题:梯度消失(Vanishing Gradients)和梯度爆炸(Exploding Gradients)。这两个问题严重影响了深度神经网络的训练效率和性能。本文将详细介绍这两个问题,并通过实例帮助读者更好地理解。
叶庭云
8 个月前
激活函数
·
反向传播
·
深度神经网络
·
梯度消失
·
梯度爆炸
训练深度神经网络,使用反向传播算法,产生梯度消失和梯度爆炸问题的原因?
🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/反向传播是神经网络训练的精髓。它是根据上一个迭代获得的误差(即损失)对神经网络的权重进行微调的做法。权重的适当调整可确保较低的误差,从而通过提高模型的泛化能力使其变得可靠。反向传播算法的核心思想和工作原理可分为以下几个方面:
PleaseBrave
9 个月前
人工智能
·
深度学习
·
神经网络
·
激活函数
·
梯度下降
·
梯度消失
·
梯度爆炸
【神经网络 基本知识整理】(激活函数) && (梯度+梯度下降+梯度消失+梯度爆炸)
我们知道神经网络中前一层与后面一层的连接可以用y = wx + b表示,这其实就是一个线性表达,即便模型有无数的隐藏层,简化后依旧是上述的线性表达式,那么模型的拟合能力非常受限。因此引入了激活函数σ,y = σ(wx + b),使得模型能够拟合非线性的问题。常用的激活函数详解可参考👉激活函数详解 ///激活函数详解