深度学习基础—学习率衰减与局部最优问题

1.学习率衰减

下图中,蓝色的线是min-batch梯度下降法过程中较大学习率的的优化路径,绿线是较小学习率的优化路径。

如果使用min-batch梯度下降法,在模型的学习过程中,会有很多噪声,在靠近最小值的时候,由于学习率a不变,因此最终算法在最小值附近摆动。要解决这个问题,就需要减少学习率a,让靠近最小值的过程中,模型的步长小一点,这就需要学习率衰减来解决。

一个训练集被拆成多个min-batch,对一个训练集训练一遍成为1epoch,我们有如下相关的学习率衰减公式:

其中,decay_rate是衰减率,epoch_num是训练的代数,a0是初始学习率,k是小于1的参数。这些做法都可以让学习率随着训练代数的增加,逐渐衰减,从而让模型更加接近最小值。

2.局部最优问题

接下来看看局部最优问题,如下图所示,蓝点是局部最优解,红点是全局最优解。局部最优和全局最优都是梯度为0的点,也就是所有维度都是凹函数。

下图是鞍点,鞍点是部分维度为凸函数,部分维度为凹函数的点,该点的梯度也为0。

实际的神经网络中,尤其是大模型,参数非常多,损失函数的图像在高维空间难以画出,运行过程中,遇到的梯度为0的点很难是局部最优点(这需要所有维度都是凹函数,概率极低)。最容易遇到的是鞍点,遇到鞍点是让人头疼的问题:

因为马鞍面有一部分很平缓,这部分的梯度很小,使用梯度下降法时会经过很长时间才能走到鞍点附近,在鞍点附近扰动,直到找到梯度更大的方向,梯度下降法才能有更深的进展。这个平稳段需要更好的优化算法来加速训练,Adam算法就是很成熟的优化算法,可以帮助我们加速走出平稳段和鞍点,从而搜索到全局最优。

相关推荐
哥布林学者4 分钟前
吴恩达深度学习课程二: 改善深层神经网络 第一周:深度学习的实践(二)
深度学习·ai
lisw0537 分钟前
人和AI的分工模式!
人工智能·青少年编程
rengang661 小时前
002-Spring AI Alibaba Prompt 功能完整案例
人工智能·spring·prompt·spring ai·ai应用编程
Giser探索家1 小时前
无人机数字资产采集技术架构与实践:从多维度感知到云端化建模的实现路径
大数据·人工智能·算法·计算机视觉·分类·无人机
飞飞是甜咖啡1 小时前
读论文AI prompt
人工智能·prompt
GIS数据转换器1 小时前
基于GIS的智慧畜牧数据可视化监控平台
人工智能·安全·信息可视化·无人机·智慧城市·制造
千年奇葩1 小时前
Unity性能优化之:利用CUDA加速Unity实现大规模并行计算。从环境搭建到实战案例
c++·人工智能·unity·游戏引擎·cuda
攻城狮7号1 小时前
蚂蚁开源高性能扩散语言模型框架dInfe,推理速度提升十倍
人工智能·dinfer·扩散语言模型·蚂蚁开源模型
LONGZETECH1 小时前
【龙泽科技】汽车电子电气与空调舒适系统技术1+X仿真教学软件(1.3.2 -中级)【威朗&科鲁兹】
人工智能·科技·汽车·汽车仿真教学软件·汽车教学软件
机器之心1 小时前
为什么95%的智能体都部署失败了?这个圆桌讨论出了一些常见陷阱
人工智能·openai