仅需一行代码即可提升训练效果！

啥都会一点的研究生2025-06-09 10:22

最近新看到的一篇paper，挺有意思

pdf: arxiv.org/pdf/2411.16...
code: github.com/kyleliang91...

在这篇文章中只做了一个出人意料的简单调整，作者建议忽略来自优化器、与最近反向传播中当前梯度符号相反的任何更新。换句话说，建议只应用与当前梯度一致的更新，使更新更稳定，并与最新数据保持一致。他们发现这个小小的调整可以显著加快训练速度，大致梳理了下内容，一起看看

背景

AdamW 成为大多数 Transformer 预训练的默认优化器，近年来虽然出现了一些改进版本，但始终没有真正挑战其主导地位。然而，随着大模型时代的到来，更高效的优化器可以加快训练速度，提高模型能力。因此，该研究提出了一种简单但有效的优化器修改方法------Cautious Optimizer

贡献

提出了Cautious Optimizer，仅需一行代码修改现有动量优化器，即 C-AdamW 和 C-Lion
不会破坏优化器的收敛性
相比于普通动量优化器，能更快地降低损失函数
能够避免"卡在"优化路径上的某些不稳定点，而普通动量优化器可能会在这些点上振荡或减缓收敛

方法

仅在优化器的更新方向与当前梯度方向一致时才执行更新
具体实现如下（PyTorch 代码示例）

python 复制代码

# param p, update u from OPT, grad g
m = (u * g > 0).to(g.dtype)
p.add (u * m / (m.mean() + eps), alpha=-lr)

实验

LLaMA 预训练任务

C-AdamW 和 C-Lion 在多个参数规模（60M、100M、350M、1B）下均比原始 AdamW 和 Lion 更快地收敛
C-AdamW 训练效率提高 1.47 倍，C-Lion 提高 1.28 倍
在 GLUE 基准测试中，C-AdamW 在多个 NLP 任务上的平均得分比 AdamW 提高 2%

MAE 视觉预训练任务

C-AdamW 使评估损失更快下降，表明其在图像表示学习上的有效性

LLM 微调（Instruction Tuning）和 RLHF 任务

C-AdamW 在相同训练步数和 PPO 训练回合下，取得了更低的训练损失和更高的奖励分数

TODO

进一步改进 ϕ（masking）函数，使其更有效
在特征空间（如特征向量的主成分）进行 mask，而非直接在参数空间操作
更严格地分析对收敛速率的提升

愣着干嘛，测起来用起来，创新点+1[狗头]

上一篇：【PyCharm必会基础】正确移除解释器及虚拟环境（以 Poetry 为例）

下一篇：【LLM-Agent】智能体的记忆缓存设计

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04Linux下V2Ray安装配置指南 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06jdk21下载、安装（Windows、Linux、macOS）07GitLab 零基础入门指南：从安装到项目管理全流程 08KGG转MP3工具|非KGM文件|解密音频 09NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 10MIUI显示/隐藏5G开关的方法，信号弱时开启手机Wifi通话方法