深度学习:学习率衰减(Learning Rate Decay)

✅ 一、什么是学习率衰减?

学习率衰减(Learning Rate Decay) 是一种在训练过程中逐步降低学习率的技术。其核心思想是:

🔍 "先快后慢"

  • 初期用较大的学习率快速逼近最优解;
  • 后期用较小的学习率精细调整,避免震荡或跳过最小值。

✅ 二、为什么需要学习率衰减?

2.1 学习率过大 → 震荡

  • 在接近最优解时,大步长会导致模型"来回跳动",无法收敛;
  • 类比:爬山时最后几步太大,会从山顶滑下去。

2.2 学习率过小 → 收敛慢

  • 初期更新太慢,浪费训练时间;
  • 类比:刚开始走得太小心,效率低下。

✅ 因此,动态调整学习率是提升训练效果的关键策略。


✅ 三、常见学习率衰减方法

3.1 分段常数衰减(Piecewise Constant Decay)

  • 将训练过程分为多个阶段,每个阶段使用不同的固定学习率;

  • 常用于实验中手动调参。

    示例:每 10 epochs 降一次

    lr = [0.1, 0.05, 0.01, 0.001] # 每个阶段的 learning rate

✅ 优点:简单直观;

❌ 缺点:不够灵活,需人工设定。


3.2 指数衰减(Exponential Decay)

  • 学习率按指数函数下降:

其中:

  • :初始学习率;
  • :当前训练步数;
  • :衰减系数。

✅ 优点:平滑下降,适合大多数任务。


3.3 自然指数衰减(Natural Exponential Decay)

  • 更常用的变体:其中 ( T ) 是总训练步数。

✅ 特点:前期下降快,后期趋于平稳。


3ا4 多项式衰减(Polynomial Decay)

  • 使用多项式函数控制学习率下降:其中:
    • :幂次(通常取 0.5~1.0);
    • :总训练步数。

✅ 优点:可定制衰减曲线形状;

❌ 缺点:对超参数敏感。


3.5 余弦退火(Cosine Annealing)

  • 使用余弦函数模拟学习率变化:

  • 可结合周期性重启(Cyclic LR),实现"热重启"策略。

✅ 优点:能有效逃出局部极小值;

⭐ 常见于现代优化器(如 PyTorch 的 CosineAnnealingLR)。


3.6 余弦衰减(Cosine Decay)

  • 类似余弦退火,但不重启:

✅ 优点:平滑过渡到最小学习率。


✅ 四、实际应用建议

方法 适用场景 推荐程度
分段常数 手动调参、调试阶段 ⭐⭐
指数衰减 通用任务 ⭐⭐⭐
多项式衰减 需要精细控制 ⭐⭐⭐
余弦退火 复杂模型、大规模训练 ⭐⭐⭐⭐

💡 经验法则

  • 初始学习率:0.001 ~ 0.01;
  • 衰减方式:优先尝试余弦退火或指数衰减;
  • 结合早停(Early Stopping)防止过拟合。

✅ 五、代码示例(PyTorch)

复制代码
import torch
import torch.optim as optim
from torch.optim.lr_scheduler import StepLR, ExponentialLR, CosineAnnealingLR

model = torch.nn.Linear(10, 1)
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 1. 分段衰减
scheduler = StepLR(optimizer, step_size=10, gamma=0.5)  # 每10步乘0.5

# 2. 指数衰减
scheduler = ExponentialLR(optimizer, gamma=0.95)  # 每步乘0.95

# 3. 余弦退火
scheduler = CosineAnnealingLR(optimizer, T_max=100)  # 总步数100

for epoch in range(num_epochs):
    for batch in dataloader:
        optimizer.zero_grad()
        loss = model(batch)
        loss.backward()
        optimizer.step()
    
    scheduler.step()  # 更新学习率

✅ 六、总结

🌟 学习率衰减是提升模型收敛速度与稳定性的关键技术

它让训练过程像"登山"一样:先大步前进,再小步精调。

  • 分段衰减:简单直接;
  • 指数/多项式衰减:平滑可控;
  • 余弦退火:最先进,推荐使用。

💡 一句话记住
"学习率不是越大越好,而是越'聪明'越好。"

相关推荐
Kyrie6782 小时前
SkillOpt:把 Agent 的技能文件当作可训练参数
人工智能
zzzzzz3103 小时前
别争了,OpenClaw 和国产龙虾我全都要:一个 AI Agent 混合部署实战
机器学习·机器人·api
冬奇Lab3 小时前
Workflow 系列(07):工程化与版本管理——Workflow 的 CI/CD
人工智能·工作流引擎
两万五千个小时3 小时前
Claude Code 上下文管理(一):为什么 Agent 会"失忆"?
人工智能·架构·开源
两万五千个小时3 小时前
Claude Code 上下文管理(二):零 Token 消耗的压缩三板斧
人工智能·程序员·开源
冬奇Lab3 小时前
每日一个开源项目(第150篇):caveman - 为什么用很多 token,少 token 也行——给 AI Agent 装上穴居人嘴巴
人工智能·开源·资讯
贵慜_Derek3 小时前
MAI-04|干净数据在工程上意味着什么:MAI 预训练数据治理
人工智能·算法·llm
feelmylife593 小时前
Agent 记忆设计架构 — 分层记忆:什么时候该记住,什么时候该忘记
人工智能
阿黎梨梨3 小时前
揭秘大语言模型的底层逻辑:从文本分词到高维向量的计算之旅
javascript·人工智能
moMo3 小时前
AI工程化 03:给模型喂上下文
人工智能