REAP the Experts：去掉 MoE 一半专家还能保持性能不变

REAP the Experts：为什么一刀切的 MoE 压缩里，Pruning 比 Merging 更稳、更准

这篇论文解决什么问题

Sparsely-activated Mixture-of-Experts（SMoE）在 LLM 里很香：预训练省算力、推理低延迟，但代价是 参数量爆炸 和 显存占用高 。于是大家开始做专家压缩。过去的结论常常是：在多选题（MC）上，Merging 比 Pruning 好。但这篇论文指出：一旦任务变成 生成式（code、math、creative writing、tool calling） ，结论会反过来，Pruning 更优，并且给出理论原因与新的剪枝准则 REAP。

关键结论一：Merging 会导致"功能子空间坍缩"

作者先建立一个极简但关键的分析：把两个专家 f i , f j f_i, f_j fi,fj 压成一个专家时，会发生什么？

原始 SMoE 层输出：
h ( x ) = ∑ k = 1 K g k ( x ) f k ( x ) h(x)=\sum_{k=1}^K g_k(x) f_k(x) h(x)=k=1∑Kgk(x)fk(x)

Merging 的根本问题

合并时把 g i ( x ) g_i(x) gi(x) 和 g j ( x ) g_j(x) gj(x) 直接相加，并用一个固定组合的专家 f ~ \tilde f f~ 替代：
h ~ ( x ) = ∑ k ≠ i , j g k ( x ) f k ( x ) + ( g i ( x ) + g j ( x ) ) f ~ ( x ) \tilde h(x) = \sum_{k\neq i,j} g_k(x)f_k(x) + \big(g_i(x)+g_j(x)\big)\tilde f(x) h~(x)=k=i,j∑gk(x)fk(x)+(gi(x)+gj(x))f~(x)

但原本两个专家在不同输入下的比例是动态的。定义：
r ( x ) = g i ( x ) g i ( x ) + g j ( x ) r(x) = \frac{g_i(x)}{g_i(x)+g_j(x)} r(x)=gi(x)+gj(x)gi(x)

原始组合实际上是：
( g i + g j ) ⋅ ( r ( x ) f i ( x ) + ( 1 − r ( x ) ) f j ( x ) ) (g_i+g_j)\cdot\Big(r(x)f_i(x)+(1-r(x))f_j(x)\Big) (gi+gj)⋅(r(x)fi(x)+(1−r(x))fj(x))

问题：Merging 强行把动态混合变成静态混合，理论上会引入不可消除的误差。

核心下界（论文定理）：
Error = E ⁣ [ ( g i + g j ) 2 ] ⋅ V a r [ r ( x ) ] ⋅ ∥ f i − f j ∥ 2 \text{Error} = \mathbb{E}\!\left[(g_i{+}g_j)^2\right]\cdot \mathrm{Var}[r(x)] \cdot \|f_i-f_j\|^2 Error=E[(gi+gj)2]⋅Var[r(x)]⋅∥fi−fj∥2

只要：

router 的 mixing policy 不是常数（ V a r [ r ] > 0 \mathrm{Var}[r]>0 Var[r]>0）
两专家不是同一个函数（ ∥ f i − f j ∥ > 0 \|f_i-f_j\|>0 ∥fi−fj∥>0）

那么 误差必然 > 0。

Pruning 的优势

如果直接剪掉 f j f_j fj：
Error = E [ g j ( x ) 2 ∥ f i − f j ∥ 2 2 ] \text{Error} = \mathbb{E}[g_j(x)^2\|f_i-f_j\|_2^2] Error=E[gj(x)2∥fi−fj∥22]

这里没有 V a r [ r ] \mathrm{Var}[r] Var[r]，所以 Pruning 不会因为策略多样性而受罚。这就是"功能子空间坍缩"结论的理论原因。

关键结论二：经验层面，Merging 在生成任务上崩得更快

作者用 PCA 可视化显示：在高层 MoE 中，Merging 会把专家输出子空间强行拉到中心，出现 "functional subspace collapse"；Pruning 则保留原来的 manifold 结构。

图解：Qwen3-30B 早期层 PCA 空间，Pruning 保留原分布形状，Merging 明显收缩。

图解：Qwen3-30B 后期层 PCA 空间，Merging 收缩更剧烈，Pruning 仍保持原 manifold 结构。

REAP：Router-weighted Expert Activation Pruning

为了让 Pruning 更稳，作者提出新的剪枝准则 REAP ，直觉是：专家重要性不仅取决于 路由频率 ，还取决于 输出幅度。

定义专家 j j j 的 saliency：
S j = 1 ∣ X j ∣ ∑ x ∈ X j g j ( x ) ⋅ ∥ f j ( x ) ∥ 2 S_j = \frac{1}{|\mathcal{X}j|}\sum{x\in\mathcal{X}_j} g_j(x)\cdot \|f_j(x)\|_2 Sj=∣Xj∣1x∈Xj∑gj(x)⋅∥fj(x)∥2

含义：