深度范式转移：漂移模型（Drifting Models）解析

论文：Generative Modeling via Drifting

引言

在当前的生成式人工智能领域，扩散模型（Diffusion Models）和流匹配（Flow Matching）占据了主导地位。这些模型的核心逻辑是通过在推理阶段（Inference-time）求解常微分方程（ODE）或随机微分方程（SDE）来实现从先验分布到数据分布的映射。然而，这类方法依赖于多步迭代网络调用（NFE > 1），在计算效率上存在天然瓶颈。

何恺明近期提出的 Drifting Models（漂移模型） 提出了一种截然不同的范式：将样本分布的演进从"推理阶段"转移至"训练阶段"。通过引入一种基于吸引与排斥机制的漂移场（Drifting Field），模型能够在单次前向传播中完成生成。

1. 核心机制：训练时分布演进

Drifting Models 的核心目标是学习一个单步映射函数 fθf_\thetafθ，使得先验分布 pϵp_\epsilonpϵ 的推前分布（Pushforward Distribution）q=f#(ϵ)q = f_{\#}(\epsilon)q=f#(ϵ) 能够匹配目标数据分布 pdatap_{data}pdata。

图1 漂移模型 ：网络fff执行前推操作：q=f#ppriorq=f_{\#} p_{\text{prior}}q=f#pprior，将先验分布ppriorp_{\text{prior}}pprior（如高斯分布，图中未展示）映射为前推分布qqq（橙色）。训练的目标是让该分布逼近数据分布pdatap_{\text{data}}pdata（蓝色）。随着训练迭代进行，我们得到一系列模型{fi}\{f_i\}{fi}，对应一系列前推分布{qi}\{q_i\}{qi}。本文的漂移模型聚焦于训练阶段前推分布的演化过程。论文引入了一个漂移场，当分布qqq与数据分布pdatap_{\text{data}}pdata匹配时，该漂移场趋于零。
pushforward operation/ distribution：前推操作/前推分布（概率论专业术语，指通过映射将一个分布转化为另一个分布，也译作"推送操作/分布"）

与扩散模型通过预设的噪声调度（Noise Schedule）定义演进路径不同，Drifting Models 利用训练迭代过程中的自然演化。在第 iii 次训练迭代时，模型 fif_ifi 对应一个推前分布 qiq_iqi。研究者引入漂移场 Vp,q\mathbf{V}{p,q}Vp,q 指导分布的移动：
xi+1=xi+Vp,q(xi)\mathbf{x}{i+1} = \mathbf{x}i + \mathbf{V}{p,q}(\mathbf{x}_i)xi+1=xi+Vp,q(xi)

当 q=pq = pq=p 时，漂移场达到平衡状态（V=0\mathbf{V} = 0V=0）。

2. 漂移场（Drifting Field）的数学构建

漂移场的构造灵感来源于经典统计学中的均值漂移（Mean-shift）算法。为了确保收敛性与稳定性，漂移场被定义为正向引力与负向斥力的线性叠加：
Vp,q(x)=Vp+(x)−Vq−(x)\mathbf{V}_{p,q}(\mathbf{x}) = \mathbf{V}^+_p(\mathbf{x}) - \mathbf{V}^-_q(\mathbf{x})Vp,q(x)=Vp+(x)−Vq−(x)

其中，Vp+\mathbf{V}^+_pVp+ 由数据分布 ppp 提供吸引力，Vq−\mathbf{V}^-qVq− 由生成分布 qqq 提供排斥力。通过核函数 k(x,y)k(\mathbf{x}, \mathbf{y})k(x,y) 衡量样本间的相似性，其具体形式为（y+\textbf{y}^{+}y+来自数据分布，x\textbf{x}x来自生成分布）：
Vp+(x)=1Ey+∼p[k(x,y+)]Ey+∼p[k(x,y+)(y+−x)]\mathbf{V}^+p(\mathbf{x}) = \frac{1}{\mathbb{E}{\mathbf{y}^+ \sim p} [k(\mathbf{x}, \mathbf{y}^+)]} \mathbb{E}{\mathbf{y}^+ \sim p} [k(\mathbf{x}, \mathbf{y}^+)(\mathbf{y}^+ - \mathbf{x})]Vp+(x)=Ey+∼p[k(x,y+)]1Ey+∼p[k(x,y+)(y+−x)]

这种反对称（Anti-symmetric）的构造确保了当生成分布与数据分布重合时，样本受到的总作用力为零，从而维持分布的平衡。

图2 样本漂移示意图 ：生成样本xxx（黑色）沿向量V=Vp+−Vq−V=V_{p}^{+}-V_{q}^{-}V=Vp+−Vq−产生漂移。其中Vp+V_{p}^{+}Vp+为正样本（蓝色）的均值漂移向量，Vq−V_{q}^{-}Vq−为负样本（橙色）的均值漂移向量。样本xxx受Vp+V_{p}^{+}Vp+的吸引作用、受Vq−V_{q}^{-}Vq−的排斥作用发生漂移。

3. 训练目标：固定点迭代与 Stop-gradient

Drifting Models 的训练目标并非直接最小化分布间距（如 KL 散度或 W 距离），而是建立一个固定点回归（Fixed-point Regression）任务。其损失函数定义如下：
L=Eϵ[∥fθ(ϵ)−sg(fθ(ϵ)+Vp,qθ(fθ(ϵ)))∥2]\mathcal{L} = \mathbb{E}\epsilon [ \| f\theta(\epsilon) - \text{sg}(f_\theta(\epsilon) + \mathbf{V}{p,q\theta}(f_\theta(\epsilon))) \|^2 ]L=Eϵ[∥fθ(ϵ)−sg(fθ(ϵ)+Vp,qθ(fθ(ϵ)))∥2]

其中 sg(⋅)\text{sg}(\cdot)sg(⋅) 表示梯度阻断（Stop-gradient）操作。

为什么使用 Stop-gradient？

这一设计与何恺明此前在 SimSiam (Simple Siamese) 中的发现具有方法论一致性。在 SimSiam 中，stop-gradient 是防止双孪生网络发生表征退化（Collapse）的核心。

SimSiam主要解决自监督对比学习的崩溃解问题（不论输入什么，特征提取器都是相同的输出），并且不同于 SimCLR、MoCo 等依赖负样本对构建对比损失的方法，SimSiam 仅通过最小化同一图像两个增强视图的负余弦相似度进行学习，全程不引入负样本，也无需大批次数据或动量编码器。

SimSiam架构：它让支路 1 去预测支路 2 的输出，但在计算梯度时，停止了支路 2 的梯度回传。
直观理解：支路 2 被当成了一个"静态的目标"。网络被迫去"追赶"这个目标，而目标本身不会为了迎合网络而主动收缩到一个常数点。这种不对称性打破了对称梯度下降导致的崩溃。

在 Drifting Models 中，stop-gradient 扮演了类似的角色：

解耦优化目标 ：它将"漂移后的位置"视为一个冻结的（Frozen）目标，避免了通过复杂的核函数计算以及通过整个分布 qqq 进行反向传播。这使得优化过程在数学上等价于一种隐式的 Expectation-Maximization (EM) 算法。
动力学稳定：通过将更新后的状态作为目标而非直接最小化漂移场本身，网络被迫学习如何直接映射到稳定流形上。

4. 特征空间漂移（Drifting in Feature Space）

实验表明，直接在像素空间计算漂移场由于维度过高和语义信息匮乏，往往难以收敛。Drifting Models 引入了特征提取器 ϕ\phiϕ （如预训练的自监督 MAE），在语义特征空间执行上述动力学过程：
Lfeat=E[∥ϕ(f(ϵ))−sg(ϕ(f(ϵ))+Vϕ)∥2]\mathcal{L}{feat} = \mathbb{E} [ \| \phi(f(\epsilon)) - \text{sg}(\phi(f(\epsilon)) + \mathbf{V}{\phi}) \|^2 ]Lfeat=E[∥ϕ(f(ϵ))−sg(ϕ(f(ϵ))+Vϕ)∥2]

这种设计使得模型能够优先捕获图像的高层结构信息。由于特征提取仅在训练时用于计算损失，而在推理时并不参与计算，因此不影响生成速度。

5. 实验分析与结论

在 ImageNet 256×256 基准测试中，Drifting Models 展现了卓越的性能：

1-NFE 性能 ：在 Latent Space 下达到 1.54 FID ，在 Pixel Space 下达到 1.61 FID。这一指标不仅超越了所有非蒸馏的一步生成模型，甚至优于许多多步迭代的扩散模型。
分类器自由引导（CFG）：该模型通过在训练阶段引入无条件样本作为负样本，实现了单步推理下的 CFG 增强效果。
泛化能力：在机器人运动规划任务（Robotics Control）中，Drifting Policy 在单步推理下的表现与需要 100 步迭代的 Diffusion Policy 相当，验证了该框架在时效性要求较高任务中的巨大潜力。

总结

Drifting Models 标志着生成模型从"推理时迭代"向"训练时演进"的范式转变。通过结合漂移场动力学与 SimSiam 式的非对称优化技巧，它解决了生成模型在质量与速度之间的长期博弈。这一研究不仅为一步生成提供了坚实的理论支撑，也为后续自监督学习与生成模型的融合指明了方向。