仅需一行代码即可提升训练效果!

最近新看到的一篇paper,挺有意思

在这篇文章中只做了一个出人意料的简单调整,作者建议忽略来自优化器、与最近反向传播中当前梯度符号相反的任何更新。换句话说,建议只应用与当前梯度一致的更新,使更新更稳定,并与最新数据保持一致。他们发现这个小小的调整可以显著加快训练速度,大致梳理了下内容,一起看看

背景

AdamW 成为大多数 Transformer 预训练的默认优化器,近年来虽然出现了一些改进版本,但始终没有真正挑战其主导地位。然而,随着大模型时代的到来,更高效的优化器可以加快训练速度,提高模型能力。因此,该研究提出了一种简单但有效的优化器修改方法------Cautious Optimizer

贡献

  • 提出了Cautious Optimizer,仅需一行代码修改现有动量优化器,即 C-AdamW 和 C-Lion
  • 不会破坏优化器的收敛性
  • 相比于普通动量优化器,能更快地降低损失函数
  • 能够避免"卡在"优化路径上的某些不稳定点,而普通动量优化器可能会在这些点上振荡或减缓收敛

方法

  • 仅在优化器的更新方向与当前梯度方向一致时才执行更新
  • 具体实现如下(PyTorch 代码示例)
python 复制代码
# param p, update u from OPT, grad g
m = (u * g > 0).to(g.dtype)
p.add (u * m / (m.mean() + eps), alpha=-lr)

实验

  1. LLaMA 预训练任务
  • C-AdamW 和 C-Lion 在多个参数规模(60M、100M、350M、1B)下均比原始 AdamW 和 Lion 更快地收敛
  • C-AdamW 训练效率提高 1.47 倍,C-Lion 提高 1.28 倍
  • 在 GLUE 基准测试中,C-AdamW 在多个 NLP 任务上的平均得分比 AdamW 提高 2%
  1. MAE 视觉预训练任务
  • C-AdamW 使评估损失更快下降,表明其在图像表示学习上的有效性
  1. LLM 微调(Instruction Tuning)和 RLHF 任务
  • C-AdamW 在相同训练步数和 PPO 训练回合下,取得了更低的训练损失和更高的奖励分数

TODO

  • 进一步改进 ϕ(masking)函数,使其更有效
  • 在特征空间(如特征向量的主成分)进行 mask,而非直接在参数空间操作
  • 更严格地分析对收敛速率的提升

愣着干嘛,测起来用起来,创新点+1[狗头]

相关推荐
电磁脑机3 小时前
无总线场同步:意识本质、AGI困境与脑机革命的核心理论重构
分布式·神经网络·架构·信号处理·agi
LaughingZhu5 小时前
Product Hunt 每日热榜 | 2026-04-09
人工智能·经验分享·深度学习·神经网络·产品运营
龙文浩_5 小时前
AI中NLP的RNN 结构深度解析与代码实现
人工智能·深度学习·神经网络·学习·自然语言处理
暴力的bug制造机5 小时前
【机器学习】神经网络关键组成(损失函数 | 梯度下降 | 反向传播 | 权重更新)
人工智能·神经网络·机器学习
龙文浩_1 天前
AI中NLP的文本张量表示方法在自然语言处理中的演进与应用
人工智能·pytorch·深度学习·神经网络·自然语言处理
带娃的IT创业者1 天前
MLP vs Transformer:不同问题用不同工具
人工智能·深度学习·神经网络·transformer·架构设计·mlp
龙文浩_1 天前
AI中NLP的自然语言处理中的文本预处理与特征工程
人工智能·pytorch·深度学习·神经网络·自然语言处理
龙文浩_1 天前
AI中NLP的循环神经网络及其演进
人工智能·pytorch·深度学习·神经网络·自然语言处理
咚咚王者2 天前
人工智能之知识处理 知识推理 第三章 图神经网络与知识推理:让图谱“活”起来
人工智能·深度学习·神经网络
人机与认知实验室2 天前
神经网络、数学、理性思维真能实现通用智能吗?
人工智能·深度学习·神经网络·机器学习