谷歌新研究:训练大模型时“偷懒跳过“50%更新,性能反而提升20%?

文章目录

🍃作者介绍:25届双非本科网络工程专业,阿里云专家博主,深耕 AI 原理 / 应用开发 / 产品设计。前几年深耕Java技术体系,现专注把 AI 能力落地到实际产品与业务场景。

🦅个人主页:@逐梦苍穹

📕所属专栏:🌩 专栏人工智能; 🌩 专栏速通人工智能相关论文

🐼GitHub主页:https://github.com/XZL-CODE

✈ 您的一键三连,是我创作的最大动力🌹

1、前言

如果有人告诉你:"学生每天偶尔摸鱼不学习,反而比每天埋头苦读的学生考试成绩更好",你信吗?

绝大多数人第一反应肯定是:这不可能!学习就应该越努力越好,哪有偷懒反而变强的道理?

然而,Google DeepMind 的研究人员最近发表了一篇令整个优化器研究圈大跌眼镜的论文:在训练大型语言模型时,随机跳过约 50% 的参数更新 ,结果模型性能不仅没有下降,反而比每次都"乖乖全量更新"的标准做法提升了接近 20%

这篇论文叫做《On the Surprising Effectiveness of Masking Updates in Adaptive Optimizers 》(掩盖更新在自适应优化器中的惊人有效性),提出了一个叫 MAGMA 的方法------全称 Momentum-Aligned Gradient MAsking(动量对齐梯度掩盖)。

今天这篇文章,我们来聊聊:

  • 这个反常识的发现是怎么被发现的
  • 为什么"偷懒"反而变强了(背后的数学直觉)
  • MAGMA 具体是怎么做的
  • 实验数据有多惊人

全文用大量生活类比,不需要深厚的数学基础,只要有梯度下降的基本概念就能读懂。


2、先看个有趣的问题

在进入技术内容之前,我想先给你讲两个生活场景,这能帮助你更自然地理解后面的内容。

场景一:健身的"超量恢复"原理

健身达人都知道一个铁律:肌肉不是在举铁的时候增长的,而是在休息的时候 。肌肉纤维被锻炼撕裂后,需要恢复期才能变得更强壮。如果你每天不停地练同一块肌肉,不给它喘息的机会,最终会过度训练,反而表现下滑。

合理安排休息日的人,往往比"每天都练"的人进步更快。

场景二:间隔记忆法(Spaced Repetition)

背单词时,你是选择每天背 1000 个全新单词,还是今天背 300 个、后天复习一遍、一周后再强化?

认知科学研究表明,后者的记忆效果远胜前者。这就是著名的"间隔重复"学习法------适当的遗忘和间隔,反而能加强记忆的牢固程度。强行每次都不间断地塞进去,大脑反而容易形成"肌肉记忆式的过拟合",不够稳健。

这两个场景,其实暗示了神经网络训练中一个被长期忽视的规律:

适当的"跳过",有时比"全量执行"更有益。


3、背景知识:优化器是什么

要理解 MAGMA,我们先得搞清楚两个基础概念:梯度下降Adam 优化器

3.1 梯度下降的直觉

想象你被蒙上了眼睛,站在一座崎岖的山上,任务是走到山脚(找到损失最小的参数组合)。

你看不见周围的地形,但可以用脚感觉脚下地面的倾斜方向。每一步,你都朝着"脚下最陡峭的下坡方向"迈出一步。走了很多步之后,你大概率会到达某个谷底。

这就是**梯度下降(Gradient Descent)**的核心逻辑:

生活类比 神经网络训练
山的海拔高度 损失值(Loss),越高说明模型预测越不准
你的位置 模型的参数值
脚感到的坡度 梯度(告诉你往哪走损失下降最快)
每步的步幅 学习率(Learning Rate)
走到谷底 找到最优参数

神经网络训练就是这样一个过程:不断计算梯度(坡度),然后把参数向梯度的反方向移动(下坡),直到走到某个谷底。

3.2 Adam 为什么这么流行

普通的梯度下降有个实际问题:对所有参数用同一个步长更新。这会导致有些参数更新太猛(像在悬崖边跑步),有些又更新太慢(像在平地上爬行)。

Adam 优化器 就是为了解决这个问题诞生的。你可以把 Adam 想象成一个有记忆的聪明学习者,他会记录两件事:

第一件事:最近走的方向(一阶矩/动量)

如果最近几步都在往同一个方向走,说明这个方向是"靠谱的",可以加速;如果方向来回变(震荡),说明可能在绕弯路,要保守一点。

第二件事:每个方向走了多猛(二阶矩)

如果某个参数方向历史上变化很大,就小心翼翼地小步走;如果变化一直很稳定,就可以大胆迈步。

这种自动调节让 Adam 成为了训练大型语言模型(LLM)的"标配"------它聪明地处理了参数之间的差异性,训练更稳、更快。

在过去几年里,几乎整个行业都有一个共识:

每次训练迭代,所有参数必须全部更新(密集更新)。

毕竟,反向传播已经计算出了所有参数的梯度,为什么不全用上呢?浪费了岂不是可惜?

然而,MAGMA 这篇论文正是打破了这个"铁律"。


4、论文核心发现:跳过更新反而更好?

4.1 "跳过更新"这个反常识的做法

Google 的研究人员先设计了一个极其简单的实验,叫做 SkipUpdate(跳过更新):

训练时,对每一个"参数块"(比如某一层的权重矩阵)随机抛一枚硬币:正面就正常更新,反面就跳过,让这个参数块这次保持不变。

每个参数块独立地、以 50% 的概率决定是否被更新。

听起来很简单对吧?就像学生随机决定今天某道题"做不做"。

有一个细节非常关键,也是这个方法为什么有效的核心:

动量(历史信息)仍然正常积累!

虽然某个参数块这次没有被实际修改,但 Adam 内部记录"最近走了哪个方向"的动量,还是会照常更新------就像你今天没去健身,但昨天运动后身体的恢复和适应过程还在继续。

同时,为了保证平均意义下的更新量不变,被选中更新的参数块更新量会乘以 2(因为平均只有 50% 的概率被选中,所以选中时放大一倍来维持期望值不变)。

实验结果让所有人大跌眼镜

在 10 亿参数(1B)规模的 Llama 2 模型预训练上,SkipUpdate 比全量 Adam 表现更好。而且进一步优化的 MAGMA 方法,更是把困惑度从 Adam 的 16.35 一路压到了 13.19

4.2 为什么跳过反而更好?

这需要引入一个关键概念:损失地形(Loss Landscape)

地形的两种谷底

把神经网络的参数空间想象成一片复杂的山地,训练目标是找到"最低洼的地方"。但谷底有两种截然不同的类型:

尖锐谷底(Sharp Minima)

就像深山里一条狭窄的峡谷裂缝。训练集上的损失确实很低(你恰好卡在最低点),但这个位置极不稳定------稍微换一批数据(测试集),或者参数偏移一点点,损失就会急剧飙升。

平坦谷底(Flat Minima)

就像一片宽阔的盆地或草原。损失值可能不是绝对最低,但这个区域范围很大------换测试数据、参数微小扰动,都不会让损失大幅上升,模型具有很强的鲁棒性。

大量研究表明:模型最终落在越平坦的谷底,在新数据上的表现越好(即泛化能力越强)。

随机跳过是如何引导走向平坦区的?

这里是论文最核心的理论发现。数学上可以严格证明(过程很复杂,我们只讲结论):

对参数块随机跳过更新,等效于给每个更新方向额外施加了一个惩罚,而且这个惩罚的大小与该方向的"陡峭程度"成正比。

用生活类比来说:就像给你戴上了一双"智能鞋"------走在越陡峭的山路上,鞋子越沉,你越不想往那里走。自然而然就把你引导到平缓地带了。

这就是论文中所说的**"隐式几何正则化(Implicit Geometric Regularization)"**:

  • 越陡峭的参数方向 → 掩盖带来的惩罚越大 → 优化器越不愿往那里走
  • 越平坦的参数方向 → 掩盖带来的惩罚越小 → 优化器可以放心走
  • 最终效果:轨迹自动偏向平坦极值区域

最妙的是:这种正则化效果完全是"免费"的------不需要任何额外的计算,只需要随机地"跳过"一些本来要做的更新,这种几何引导效果就自然涌现出来了。

这就好比,偶尔"休息",不是在浪费时间,而是在引导训练走向更稳健的方向。


5、MAGMA 方法详解

SkipUpdate 虽然有效,但它的跳过是完全随机的------对所有参数块一视同仁,不管当前这步梯度质量如何,一律 50% 概率跳过。

研究人员想到一个更进一步的问题:能不能更聪明地决定该跳过哪些?

5.1 从随机跳过到智能跳过

这就是 MAGMA 的核心思想。

还记得我们说 Adam 会"记住最近走的方向"(动量)吗?动量是过去多步梯度的累积平均,代表了模型参数"历史上比较可靠的更新方向"。

MAGMA 的洞察非常优雅:

如果当前这一步的梯度方向,和历史积累的动量方向"高度一致",说明这次更新是可靠的信号;如果方向"相反或随机",很可能是随机噪声在捣乱,这次更新不那么可信。

冲浪类比

想象你是一个冲浪运动员。动量,就是"这片海域过去一小时的浪的整体方向"(稳定的大势)。当前梯度,就是"这一刻你脚下这波浪的方向"。

  • 如果当前这波浪和整体大势方向一致 → 大概率是真实的长浪,全力冲!
  • 如果这波浪方向和大势完全相反 → 可能只是一个局部扰动的小浪,保守一点,别用全力

MAGMA 就是这个逻辑:只在"感觉对的时候"全力更新,感觉不对时保守(甚至跳过)

5.2 动量对齐------智能决策的实现

MAGMA 的计算方式其实并不复杂:

第一步:计算"可信度分数"

对每个参数块,用余弦相似度来量化当前梯度和动量的"方向一致性":

  • 分数接近 +1 → 方向高度一致 → 这步更新可信 → 给高权重
  • 分数接近 0 → 方向不相关 → 中等置信
  • 分数接近 -1 → 方向完全相反 → 可能是噪声 → 大幅压制

然后通过 Sigmoid 函数把这个分数转化成 0~1 之间的权重,并用指数移动平均做一点平滑(防止单步噪声影响决策太大)。

第二步:用这个分数来缩放更新

最终的更新 = 原始更新 × 可信度分数 × 随机掩码

效果就是:

  • 可信度高(接近1)→ 更新几乎完整保留
  • 可信度低(接近0)→ 更新被大幅压制,相当于"软跳过"

最妙的设计:零额外成本

MAGMA 完全不需要额外计算!

动量(μ)本来就是 Adam/RMSProp 每一步都要维护的量。计算余弦相似度只需要几个向量运算,相比整个反向传播的计算量完全可以忽略不计。

更重要的是,MAGMA 的设计是一个**"插件式包装器(Optimizer Wrapper)"**------你不需要改动任何模型结构或训练代码,只需要在现有优化器(Adam、RMSProp 等)外面套一个 MAGMA,就能立刻获得提升。就像给手机套了个保护壳,不改变手机本身,但却额外提供了保护。


6、实验结果

6.1 大模型预训练效果

研究团队在标准的 C4 数据集上,使用 Llama 2 架构,训练了 4 种不同规模的模型(6000万 到 10 亿参数),并与当前最先进的优化器进行了全面比较。

评估指标是验证集困惑度(Perplexity),困惑度越低,说明模型对语言的理解和预测能力越强(越不"懵逼")。

在 1B(10 亿参数)规模的模型上,主要结果如下:

方法 1B 模型困惑度 备注
Adam(标准方法) 16.35 行业基准
C-Adam(谨慎 Adam) 15.92 已有改进方法
Muon 14.52 复杂矩阵优化器,额外开销大
APOLLO+SGG 13.95 复杂组合方法
Adam+MAGMA 13.71 零额外计算成本
LaProp+MAGMA 13.82 零额外计算成本
RMSProp+MAGMA 13.19 最优!零额外计算成本

6.2 令人惊讶的数字

惊喜一:零成本超越高成本对手

最让人目瞪口呆的是:RMSProp + MAGMA 在所有模型规模上均取得最低困惑度,甚至击败了 Muon 这类需要昂贵矩阵运算的"重量级"优化器。

Muon 需要在每步训练中对梯度矩阵做复杂的数学分解,计算成本很高;而 MAGMA 的额外成本几乎为零,却能超越 Muon。

更夸张的是:RMSProp 本来是个比 Adam 还古老的优化器,在 1B 规模的训练中甚至会"发散"(训练崩溃),但套上 MAGMA 之后,不仅训练稳定了,还拿了最好成绩!

惊喜二:规模越大,提升越显著

模型规模 Adam 基准 Adam+MAGMA 相对提升
6000万参数 30.79 29.09 -5.5%
1.3亿参数 24.77 22.08 -10.9%
3.5亿参数 18.42 16.41 -10.9%
10亿参数 16.35 13.71 -16.1%

注意这个规律:模型越大,MAGMA 带来的提升越明显! 这是个绝好消息------我们最关心的正是大模型的训练效果,而 MAGMA 恰恰在这里表现最亮眼。

背后的原因也很直观:模型越大,参数之间的交互越复杂,损失地形越"崎岖多变"(陡峭区域更多),MAGMA 的几何正则化效果就越能发挥作用。

惊喜三:调参从此轻松很多

普通 Adam 对学习率非常敏感:学习率稍微大一点,训练就会不稳定;稍微小一点,又收敛太慢。使用 Adam 时,你可能需要做大量的学习率搜索实验。

而 Adam+MAGMA 的有效学习率范围大幅拓宽------即使学习率高达 0.05(正常最优值的几十倍),Adam+MAGMA 依然能稳定收敛,而同等条件下纯 Adam 已经完全失败了。

这意味着用 MAGMA 时,不需要那么精细地调参,省去了大量试错实验的成本。

惊喜四:MoE 架构也有效

混合专家模型(Mixture-of-Experts, MoE)是现代最先进大模型(如 Mixtral、GPT-4 据推测)使用的架构,它的优化难度比普通模型高很多。实验表明,MAGMA 在 MoE 架构上同样有稳定提升,当 MAGMA 与 Muon 组合时,性能大幅超越了所有基线。


7、总结与启示

7.1 用生活类比收尾

这篇文章开头,我们说到"偶尔摸鱼反而变强"的反常识现象。现在我们可以理解背后的逻辑了:

生活类比 MAGMA 对应概念
蒙眼下山 梯度下降找最优参数
有记忆的学习者 Adam 优化器(维护动量)
间隔记忆法 SkipUpdate(随机跳过 50% 更新)
只在"感觉对的时候"全力投入 MAGMA 的动量对齐机制
走向平坦草原,而非狭窄峡谷 引导优化到平坦极值区域

7.2 三大核心价值

技术价值:接近零成本的显著提升

在大模型训练动辄花费数百万美元的今天,MAGMA 带来的困惑度降低直接转化为巨大的经济价值------更少的计算资源,达到同等甚至更好的模型质量。而 MAGMA 的额外成本几乎为零,作为插件可以直接叠加到任何现有的训练流程上。

理论价值:发现了新的优化机制

论文首次从理论上严格证明了"随机跳过更新为什么有效":隐式几何正则化------通过随机跳过,自动地惩罚了"走向陡峭区域"的更新,引导优化轨迹朝着泛化能力更好的平坦极值移动。这是之前从未被认识到的一种优化机制。

认知价值:挑战"多多益善"的偏见

最重要的也许是这个结论对我们认知的颠覆:

"密集更新(每步全量更新所有参数)对神经网络训练未必是最优的。"

近年来,大家都在竞相研究"更复杂的二阶信息"、"更精密的矩阵运算"来提升优化器性能,代价是越来越高的计算开销。而 MAGMA 告诉我们:一个如此简单的"随机跳过"操作,就能超越那些复杂昂贵的方法。

有时候,少即是多 。有时候,选择性地放弃,是更聪明的策略

这种反直觉的洞察,往往才是推动整个领域向前的最强驱动力。


如果你觉得这篇文章对你有帮助,欢迎点赞收藏!如果想深入了解论文细节,可以在 arxiv 搜索:"On the Surprising Effectiveness of Masking Updates in Adaptive Optimizers"

我们下篇文章见!

相关推荐
向哆哆1 小时前
单车/共享单车目标检测数据集(适用YOLO系列)(已标注+划分/可直接训练)
人工智能·yolo·目标检测
新缸中之脑1 小时前
轻量AI助手的兴起
人工智能
陈天伟教授2 小时前
人工智能应用- 预测化学反应:02. 化学反应简介
人工智能·神经网络·算法·机器学习·推荐算法
光的方向_2 小时前
04-Tokenization实战-从BPE到Hugging-Face应用
人工智能·深度学习·chatgpt·transformer
后端小肥肠2 小时前
喂饭级教程!免费部署云端 OpenClaw + 打通飞书,自动抓取 ClawHub 技能并写入飞书表格
人工智能·agent
AI_56782 小时前
Nmap端口扫描:SYN扫描+脚本绕过提升成功率
人工智能·nmap
人工智能培训2 小时前
多模态大模型的统一表征与推理范式
人工智能·深度学习·ai大模型·多模态学习·具身智能·企业ai转型
szxinmai主板定制专家2 小时前
RK3588 8个USB工控解决方案,适用于机器视觉,工业互联等
arm开发·人工智能·fpga开发
mao_feng3 小时前
《AI智脉速递》2026 年 2月16日 - 2月23日
人工智能