6. 网络优化方法之 学习率 优化/衰减策略

1. 学习率优化

如图:学习率=0.01时收敛速度很慢,学习率=0.1时收敛速度变快,学习率越大 收敛速度越快;

学习率=0.2 即学习率较大是会 来回震荡 ,学习率=0.3 即学习率过大时会发生 梯度爆炸(即远远超出所在范围)

结论:
学习率越小,梯度下降越慢;学习率越大,梯度下降越快,可能会越过最小值,造成震荡,甚至不收敛(梯度爆炸);

2. 学习率衰减方法 (衰减策略)

2.1 等间隔学习率衰减方法

2.2 指定间隔学习率衰减方法

2.3 指数间隔学习率衰减方法

2.4 总结:

学习率衰减策略介绍:
1️⃣ 目的: 较之于AdaGrad,RMSProp,Adam方式,我们可以通过 等间隔,指定间隔,指数等方式,来手动控制学习率的调整.

2️⃣ 分类:

    等间隔学习率衰减

    指定间隔学习率衰减

    指数学习率衰减

3️⃣ 等间隔学习率衰减:

    step_size:间隔的轮数,即:多少轮调整一次学习率。

   gamma:学习率衰减系数,即:Lr新=Lr旧*gamma

    优点: 直观,易于调试,适用于大批量数据.

    缺点: 学习率变化较大,可能跳过最优解.

    应用场景: 大型数据集,较为简单的任务。

4️⃣ 指定问隔学习率衰减:

    milestones = 50, 125, 160 里边定义的是要调整学习率的 轮数。

    gamma: 学习率衰减系数,即: lr新 = lr旧 * gamma

    优点:易于调试,稳定训练过程.

    缺点: 在某些情况下可能衰减过快,导致优化提前停滞.

    应用场景: 对训练平稳性要求较高的任务。

5️⃣ 指数间隔学习率衰减:

    前期学习率衰减快,中期慢,后期更慢.更符合梯度下降规律

    公式: Lr新 = Lr旧 * gamma ** epoch

    优点: 平滑,且考虑历史更新,收敛稳定性较强.

    缺点: 超参调节较为复杂,可能需要更多的资源.

    应用场景: 高精度训练,避免过快收敛.

相关推荐
DreamLife☼1 分钟前
OpenBCI-脑电信号深度学习:CNN与RNN应用
人工智能·rnn·深度学习·cnn·eeg·脑电·openbci
HKkuaidou31 分钟前
基于深度学习的药用草本植物识别系统
pytorch·python·深度学习·resnet
txg6661 小时前
FuzzGPT:用大语言模型生成“极端边界程序”的深度学习框架 Fuzzing 新范式
人工智能·深度学习·安全·网络安全·语言模型
探物 AI1 小时前
零基础入门3D点云深度学习:从PointNet开始,理解3D数据处理
人工智能·深度学习·3d
硅谷秋水1 小时前
Nautilus:从单一提示词到即插即用机器人学习
人工智能·深度学习·机器学习·机器人
eric-sjq1 小时前
Xiaothink-T17-Tiny 模型深度解析:轻量级RNN架构的创新与实战评测
人工智能·深度学习·语言模型·自然语言处理·架构
通信仿真爱好者1 小时前
第【19】期--基于监督学习的无人机安全通信的联合轨迹优化与功率分配研究--python完整代码+文档
深度学习·无人机·轨迹优化·物理层安全·功率优化
与代码不die不休1 小时前
RTX5060显卡torch和torch_radon库安装避坑指南(仅linux系统)
linux·图像处理·python·深度学习
热心不起来的市民小周1 小时前
100种动物语义分割数据集(A100-Seg)
python·深度学习·计算机视觉
盼小辉丶2 小时前
PyTorch强化学习实战(13)——噪声网络(NoisyNet-DQN)
pytorch·深度学习·强化学习