Decentralized Autoregressive Generation
Authors: Stepan Maschan, Haoxuan Qu, Jun Liu
Deep-Dive Summary:
以下是论文部分的中文摘要:
去中心化自回归生成
Stepan Maschan 兰卡斯特大学计算与通信学院
Haoxuan Qu 兰卡斯特大学计算与通信学院
Jun Liu \* 兰卡斯特大学计算与通信学院
摘要
我们对自回归生成的去中心化进行了理论分析。我们通过将概率生成速度表示为专家流的线性组合,定义了去中心化离散流匹配目标。我们还通过实验证明了多模态语言模型在各种基准上,去中心化训练和集中式训练设置之间的等效性。具体来说,我们比较了两种不同的范式:LLaVA 和 InternVL 2.5-1B,它们都使用固定的 CLIP 视觉编码器,并在指令调优阶段执行全参数微调(ViT+MLP+LLM)。
1 引言
多模态大型语言模型(MLLMs)性能的提升需要参数数量的大幅增加(Kaplan et al., 2020),这反过来又需要更强大的基础设施:训练需要集中化的、由数千个 GPU 组成的集群,并伴随着大量的梯度同步。
这些发展带来了两个关键挑战。首先,由于基础设施有限,学术机构和小型初创公司无法进行 LLMs 训练。其次,系统容易受到单个节点故障的影响,这可能会中断整个过程(Grattafiori et al., 2024)。现有的缓解策略包括积极的检查点(checkpointing)及相关技术。
一个潜在的解决方案是去中心化训练方法,即多个专家模型在数据集的不同子集上独立训练,在推理时只激活少数几个专家。这显著减少了节点间的通信,并使得学术机构能够进行协作。最近的研究(Li et al., 2022; Gururangan et al., 2023; Filippova et al., 2025)通过实验证明了这种方法在特定设置下进行单模态语言建模训练的效率;然而,现有工作缺乏严格的理论保证,证明去中心化训练与集中式范式等效,使得去中心化训练成为一个黑箱。此外,尚未有研究经验性地探索多模态大型语言模型的去中心化训练。
McAllister et al. (2025) 定义了连续流匹配(Continuous Flow Matching)(Lipman et al., 2023)的去中心化流匹配目标,并证明了图像生成流匹配模型的集中式和去中心化训练之间的等效性。同时,Gat et al. (2024) 引入了离散流匹配理论框架,将连续流匹配(Lipman et al., 2023)扩展到离散数据领域。受这些进展的启发,我们推导了去中心化自回归生成的理论分析。
我们的贡献如下:
- 我们将离散流匹配范式(Gat et al., 2024)扩展到离散时间域,进行必要的修改并定义相应的条件。
- 类似于 McAllister et al. (2025),我们定义了去中心化离散流匹配目标,并表明概率生成速度是专家流的线性组合。
- 我们表明自回归生成是离散流匹配理论范式的一个特殊退化情况。我们提出了相应的概率路径和概率生成速度,这意味着去中心化离散流匹配目标可以应用于自回归生成。
- 我们进行了实验,证明了在两种不同设置下(LLaVA (Liu et al., 2024) 和 InternVL (Chen et al., 2025)),多模态语言模型的去中心化训练与集中式训练之间的等效性。
2 背景
本节简要重新介绍离散流匹配理论框架。
2.1 连续时间离散流匹配
离散流匹配(Discrete Flow Matching, Gat et al., 2024)是一个理论框架,它以类似于连续流匹配(Continuous Flow Matching, Lipman et al., 2023)的方式描述离散生成建模过程。具体来说,给定词汇表或令牌 [ d ] [d] [d],源分布 X 0 X_0 X0 及其令牌序列 x = ( x 1 , ... , x N ) ∈ [ d ] N x = (x^1, \ldots, x^N) \in [d]^N x=(x1,...,xN)∈[d]N 的 PMF p ( x ) p(x) p(x),以及目标分布 X 1 X_1 X1 及其 PMF q ( x ) q(x) q(x),我们定义概率路径 p t ( x ) , t ∈ [ 0 , 1 ] p_t(x), t \in [0,1] pt(x),t∈[0,1],使得 p 0 ( x ) = p ( x ) p_0(x) = p(x) p0(x)=p(x) 且 p 1 ( x ) = q ( x ) p_1(x) = q(x) p1(x)=q(x),如下所示:
其中 π ( x 0 , x 1 ) \pi (x_0,x_1) π(x0,x1) 是 ( X 0 , X 1 ) (X_0,X_1) (X0,X1) 的联合 PMF,而 p t ( x i ∣ x 0 , x 1 ) p_t(x^i|x_0,x_1) pt(xi∣x0,x1) 是令牌位置 i i i 的条件边际概率路径。
p t ( x ) = ∑ ( x 0 , x 1 ) ∈ [ d ] N × N p t ( x ∣ x 0 , x 1 ) π ( x 0 , x 1 ) p t ( x ∣ x 0 , x 1 ) = ∏ i = 1 , ... N p t ( x i ∣ x 0 , x 1 ) ( 1 ) \begin{array}{r l} & {p_{t}(x) = \sum_{(x_{0},x_{1})\in [d]^{N\times N}}p_{t}(x|x_{0},x_{1})\pi (x_{0},x_{1})}\\ & {\qquad p_{t}(x|x_{0},x_{1}) = \prod_{i = 1,\ldots N}p_{t}(x^{i}|x_{0},x_{1})} \end{array} \quad (1) pt(x)=∑(x0,x1)∈[d]N×Npt(x∣x0,x1)π(x0,x1)pt(x∣x0,x1)=∏i=1,...Npt(xi∣x0,x1)(1)
p t ( x ∣ x 0 , x 1 ) p_t(x|x_0,x_1) pt(x∣x0,x1) 应满足以下条件:
p 0 ( x ∣ x 0 , x 1 ) = δ x 0 ( x ) = { 1 , x = x 0 0 , x ≠ x 0 p 1 ( x ∣ x 0 , x 1 ) = δ x 1 ( x ) = { 1 , x = x 1 0 , x ≠ x 1 ( 4 ) \begin{array}{r l} & {p_{0}(x|x_{0},x_{1}) = \delta_{x_{0}}(x) = \left\{ \begin{array}{l l}{1,} & {x = x_{0}}\\ {0,} & {x\neq x_{0}} \end{array} \right.}\\ & {p_{1}(x|x_{0},x_{1}) = \delta_{x_{1}}(x) = \left\{ \begin{array}{l l}{1,} & {x = x_{1}}\\ {0,} & {x\neq x_{1}} \end{array} \right.} \end{array} \quad (4) p0(x∣x0,x1)=δx0(x)={1,0,x=x0x=x0p1(x∣x0,x1)=δx1(x)={1,0,x=x1x=x1(4)
在该框架中,为了使概率路径易于处理,我们只考虑那些由条件概率 w j ( x i ∣ x 0 , x 1 ) w^j(x^i|x_0,x_1) wj(xi∣x0,x1) 的凸和表示的概率路径,其系数由某个调度器 κ t i , j \kappa_t^{i,j} κti,j 提供:
p t ( x i ∣ x 0 , x 1 ) = ∑ j κ t i , j w j ( x i ∣ x 0 , x 1 ) ∑ j κ t i , j = 1 , κ t i , j ≥ 0 ( 5 ) \begin{array}{c}{p_{t}(x^{i}|x_{0},x_{1}) = \sum_{j}\kappa_{t}^{i,j}w^{j}(x^{i}|x_{0},x_{1})}\\ {\sum_{j}\kappa_{t}^{i,j} = 1,\quad \kappa_{t}^{i,j}\geq 0} \end{array} \quad (5) pt(xi∣x0,x1)=∑jκti,jwj(xi∣x0,x1)∑jκti,j=1,κti,j≥0(5)
我们还定义了概率生成速度 u t i ( x , z ) , i ∈ [ N ] u_t^i(x,z), i \in [N] uti(x,z),i∈[N]。我们通过以下规则(对每个令牌位置独立地)采样我们的令牌序列:
X t + h i ∼ δ X t ( ⋅ ) + h u t i ( ⋅ , X t ) , h > 0 ( 7 ) X_{t + h}^{i}\sim \delta_{X_{t}}(\cdot) + hu_{t}^{i}(\cdot ,X_{t}),\quad h > 0 \quad (7) Xt+hi∼δXt(⋅)+huti(⋅,Xt),h>0(7)
如果通过规则 7 采样的 X t + h X_{t+h} Xt+h 满足 X t + h ∼ p t + h + o ( h ) X_{t+h} \sim p_{t+h} + o(h) Xt+h∼pt+h+o(h),我们说 u t u_t ut 生成了概率路径 p t ( x ) p_t(x) pt(x)。
概率生成速度 u t u_t ut 可以通过条件概率生成速度 u t i ( x ∣ x 0 , x 1 ) u_t^i(x|x_0,x_1) uti(x∣x0,x1) 来构建。实际上,以下定理成立:
定理 1 如下定义的概率生成速度 u t i ( x i ) u_t^i(x^i) uti(xi):
u t i ( x i , z ) = ∑ ( x 0 , x 1 ) ∈ [ d ] N × N u t i ( x i , z ∣ x 0 , x 1 ) p t ( z ∣ x 0 , x 1 ) π ( x 0 , x 1 ) p t ( z ) ( 9 ) u_{t}^{i}(x^{i},z) = \sum_{(x_{0},x_{1})\in [d]^{N\times N}}u_{t}^{i}(x^{i},z|x_{0},x_{1})\frac{p_{t}(z|x_{0},x_{1})\pi(x_{0},x_{1})}{p_{t}(z)} \quad (9) uti(xi,z)=(x0,x1)∈[d]N×N∑uti(xi,z∣x0,x1)pt(z)pt(z∣x0,x1)π(x0,x1)(9)
生成概率路径 p t ( x ) p_t(x) pt(x)。这可以通过使用连续性方程来证明:
p t ( x ) + d i v x ( p t u t ) = 0 ( 10 ) p_{t}(x) + div_{x}(p_{t}u_{t}) = 0 \quad (10) pt(x)+divx(ptut)=0(10)
p t u t p_tu_t ptut 的离散散度定义如下:其中 v ( z , x ) = p t ( x ) u t i ( z i , x ) v(z,x) = p_t(x)u_t^i(z^i,x) v(z,x)=pt(x)uti(zi,x), v ( x , z ) = p t ( z ) u t i ( x i , z ) v(x,z) = p_t(z)u_t^i(x^i,z) v(x,z)=pt(z)uti(xi,z),如果 z z z 与 x x x 仅在令牌位置 i i i 处不同,并且 v ( x , x ) = p t ( x ) ∑ i = 1 N u t i ( x i , x ) v(x,x) = p_t(x)\sum_{i = 1}^{N}u_t^i(x^i,x) v(x,x)=pt(x)∑i=1Nuti(xi,x),否则 v ( z , x ) = v ( x , z ) = 0 v(z,x) = v(x,z) = 0 v(z,x)=v(x,z)=0。
d i v x ( v ) = ∑ ( x , z ) ∈ [ d ] N × N v ( z , x ) − v ( x , z ) ( 11 ) div_{x}(v) = \sum_{(x,z)\in [d]^{N\times N}}v(z,x) - v(x,z) \quad (11) divx(v)=(x,z)∈[d]N×N∑v(z,x)−v(x,z)(11)
p t u t p_tu_t ptut 的散度可以表示为:其中 δ z ( x i ˉ ) = ∏ j ≠ i δ z ( x j ) \delta_z(x^{\bar{i}}) = \prod_{j\neq i}\delta_z(x^j) δz(xiˉ)=∏j=iδz(xj)。
d i v x ( p t u t ) = − ∑ z ∈ [ d ] N p t ( z ) ∑ i = 1 N δ z ( x i ˉ ) u t ( x i , z ) ( 12 ) div_{x}(p_{t}u_{t}) = -\sum_{z\in [d]^{N}}p_{t}(z)\sum_{i = 1}^{N}\delta_{z}(x^{\bar{i}})u_{t}(x^{i},z) \quad (12) divx(ptut)=−z∈[d]N∑pt(z)i=1∑Nδz(xiˉ)ut(xi,z)(12)
如 (Gat et al., 2024) 所示,如果连续性方程成立,则概率生成速度按照 (7-8) 的定义生成概率路径。
3 理论分析
本节将自回归生成形式化为离散流匹配的一个特例。这使得我们能够定义离散去中心化流匹配目标并将其应用于自回归生成,从而在理论上证明去中心化和集中式训练范式的等效性。由于自回归生成是在离散时间步中完成的,我们首先将离散流匹配扩展到离散时间域,引入必要的修改。接下来,我们为自回归采样定义了概率路径和概率生成速度。由于检查概率生成速度是否确实生成了概率路径归结为检查连续性方程(CE),我们定义了离散概率生成速度必须满足的必要和充分的 1-稀疏性条件,以便 CE 能够隐含生成。最后,我们定义了离散去中心化流匹配目标,该目标自动适用于自回归生成,从而证明了去中心化和集中式设置的等效性。
3.1 离散时间离散流匹配
本小节中,我们定义离散时间域中的离散流匹配。
我们首先过渡到离散时间域 t ∈ { 0 , 1 , ... , n } t \in \{0,1,\ldots,n\} t∈{0,1,...,n},并相应地重新定义术语。在此设置中,采样规则 7 变为:其中概率生成速度 u t u_t ut 现在在离散时间步长中定义。如果通过规则 12 采样的 X t + 1 X_{t+1} Xt+1 满足以下条件,则 u t u_t ut 现在生成 p t ( x ) p_t(x) pt(x):
X t + 1 ∼ δ X t ( ⋅ ) + u t ( ⋅ , X t ) t ∈ { 0 , 1 , ... , n − 1 } ( 13 ) X_{t + 1}\sim \delta_{X_{t}}(\cdot) + u_{t}(\cdot ,X_{t})\quad t\in \{0,1,\ldots ,n - 1\} \quad (13) Xt+1∼δXt(⋅)+ut(⋅,Xt)t∈{0,1,...,n−1}(13)
X t + 1 ∼ p t + 1 ( 14 ) X_{t + 1}\sim p_{t + 1} \quad (14) Xt+1∼pt+1(14)
在这里,为了定义正确的 PMF,概率速度 u t u_t ut 必须满足以下条件,这是必要且充分的:
∑ x i ∈ [ d ] u t i ( x i ∣ z ) = 0 − 1 ≤ u t i ( z i ∣ z ) ≤ 0 , 0 ≤ u t i ( x i ∣ z ) ≤ 1 f o r x i ≠ z i ( 15 ) \begin{array}{r l r} & {} & {\sum_{x^{i}\in [d]}u_{t}^{i}(x^{i}|z) = 0}\\ & {} & {-1\leq u_{t}^{i}(z^{i}|z)\leq 0,\quad 0\leq u_{t}^{i}(x^{i}|z)\leq 1\quad \mathrm{for~}x^{i}\neq z^{i}} \end{array} \quad (15) ∑xi∈[d]uti(xi∣z)=0−1≤uti(zi∣z)≤0,0≤uti(xi∣z)≤1for xi=zi(15)
连续性方程现在采用以下形式:
p t + 1 ( x ) − p t ( x ) + div x ( p t u t ) = 0 ( 17 ) p_{t + 1}(x) - p_{t}(x) + \text{div}{x}(p{t}u_{t}) = 0 \quad (17) pt+1(x)−pt(x)+divx(ptut)=0(17)
3.2 自回归采样
为了定义自回归采样,我们将源分布和目标分布定义为 (Gat et al., 2024) 中 C-耦合的一个特例:其中 X 1 ∼ q X_1 \sim q X1∼q, m \mathbf{m} m 是一个掩码令牌, I ∈ { 0 , 1 } N \mathbb{I} \in \{0,1\}^N I∈{0,1}N 是一个指示向量,其形式为 ( 1 , 1 , ... , 1 , 0 , ... , 0 ) (1,1,\ldots,1,0,\ldots,0) (1,1,...,1,0,...,0),在某个令牌位置之前全为 1,之后全为 0。
( X 0 , X 1 ) ∼ ( I ⊙ X 1 + ( 1 − I ) ⊙ ( m , m , ... , m ) , X 1 ) ( 18 ) (X_{0},X_{1})\sim (\mathbb{I}\odot X_{1} + (1 - \mathbb{I})\odot (\mathbf{m},\mathbf{m},\ldots ,\mathbf{m}),X_{1}) \quad (18) (X0,X1)∼(I⊙X1+(1−I)⊙(m,m,...,m),X1)(18)
接下来,对于一对 X 0 , X 1 X_0, X_1 X0,X1 的条件概率路径,其中 X 0 X_0 X0 在时间步 0 0 0 处有 P P P 个令牌被揭示,将采用以下形式:
p t ( x i ∣ x 0 , x 1 ) = κ t i δ X 1 ( x i ) + ( 1 − κ t i ) δ X 0 ( x i ) κ t i = { 0 , t < P + i 1 , t ≥ P + i ( 19 ) \begin{array}{r l} & {p_{t}(x^{i}|x_{0},x_{1}) = \kappa_{t}^{i}\delta_{X_{1}}(x^{i}) + (1 - \kappa_{t}^{i})\delta_{X_{0}}(x^{i})}\\ & {\qquad \kappa_{t}^{i} = \left\{ \begin{array}{l l}{0,} & {t< P + i}\\ {1,} & {t\geq P + i} \end{array} \right.} \end{array} \quad (19) pt(xi∣x0,x1)=κtiδX1(xi)+(1−κti)δX0(xi)κti={0,1,t<P+it≥P+i(19)
条件概率路径和调度器的这个定义简单地意味着在时间步 t t t 之后,恰好有 t + P t+P t+P 个令牌被揭示。
注意,在任何时间步 t t t, p t ( x ∣ x 0 , x 1 ) p_t(x|x_0,x_1) pt(x∣x0,x1) 是一个退化分布,只有一个结果 x t x_t xt:
p t ( x ∣ x 0 , x 1 ) = δ x t ( x ) p_{t}(x|x_{0},x_{1}) = \delta_{x_{t}}(x) pt(x∣x0,x1)=δxt(x)
现在,定义条件生成速度 u t i ( x i , z ∣ x 0 , x 1 ) u_t^i(x^i,z|x_0,x_1) uti(xi,z∣x0,x1) 为:
u t i ( x i , x t ∣ x 0 , x 1 ) = { δ x t + 1 ( x i ) − δ x t ( x i ) , z = x t 0 , z ≠ x t ( 21 ) u_{t}^{i}(x^{i},x_{t}|x_{0},x_{1}) = \left\{ \begin{array}{l l}{\delta_{x_{t + 1}}(x^{i}) - \delta_{x_{t}}(x^{i}),} & {z = x_{t}}\\ {0,} & {z\neq x_{t}} \end{array} \right. \quad (21) uti(xi,xt∣x0,x1)={δxt+1(xi)−δxt(xi),0,z=xtz=xt(21)
从上述公式可知,对于固定的时间步 t t t,除了可能在 i = P + t + 1 i = P + t + 1 i=P+t+1 的令牌位置外, u t ( x i , x t ∣ x 0 , x 1 ) = 0 u_t(x^i,x_t|x_0,x_1) = 0 ut(xi,xt∣x0,x1)=0。这个性质是必要且充分的,用于证明连续性方程隐含了在离散时间域中概率生成速度生成概率路径。
接下来,为了证明定义的条件概率生成速度生成条件概率路径,我们需要:1) 证明连续性方程成立;2) 证明如果连续性方程成立,则生成成立。
首先,检查连续性方程是否成立:
p t + 1 ( x ∣ x 0 , x 1 ) − p t ( x ∣ x 0 , x 1 ) + div x ( p t u t ) = 0 ( 22 ) p_{t + 1}(x|x_{0},x_{1}) - p_{t}(x|x_{0},x_{1}) + \text{div}{x}(p{t}u_{t}) = 0 \quad (22) pt+1(x∣x0,x1)−pt(x∣x0,x1)+divx(ptut)=0(22)
由于 p t ( x ∣ x 0 , x 1 ) p_t(x|x_0,x_1) pt(x∣x0,x1) 只有一个结果 x t x_t xt,并且对于任何 i ≠ P + t + 1 i \neq P + t + 1 i=P+t+1, u t i = 0 u_t^i = 0 uti=0,散度公式 12 简化为:
d i v ( p t u t ) = − δ x t ( x P + t + 1 ‾ ) u t ( x P + t + 1 , x t ∣ x 0 , x 1 ) ( 23 ) d i v(p_{t}u_{t}) = -\delta_{x_{t}}(x^{\overline{{P + t + 1}}})u_{t}(x^{P + t + 1},x_{t}|x_{0},x_{1}) \quad (23) div(ptut)=−δxt(xP+t+1)ut(xP+t+1,xt∣x0,x1)(23)
代入 21,我们得到:
p t + 1 ( x ∣ x 0 , x 1 ) − p t ( x ∣ x 0 , x 1 ) + d i v x ( p t u t ) p_{t + 1}(x|x_{0},x_{1}) - p_{t}(x|x_{0},x_{1}) + d i v_{x}(p_{t}u_{t}) pt+1(x∣x0,x1)−pt(x∣x0,x1)+divx(ptut)
= δ x t + 1 ( x ) − δ x t ( x ) − δ x t ( x P + t + 1 ‾ ) u t ( x P + t + 1 , x t ∣ x 0 , x 1 ) \quad = \delta_{x_{t + 1}}(x) - \delta_{x_{t}}(x) - \delta_{x_{t}}(x^{\overline{{P + t + 1}}})u_{t}(x^{P + t + 1},x_{t}|x_{0},x_{1}) =δxt+1(x)−δxt(x)−δxt(xP+t+1)ut(xP+t+1,xt∣x0,x1) = δ x t + 1 ( x ) − δ x t ( x ) − δ x t ( x P + t + 1 ‾ ) ( δ x t + 1 ( x P + t + 1 ) − δ x t ( x P + t + 1 ) ) \quad = \delta_{x_{t + 1}}(x) - \delta_{x_{t}}(x) - \delta_{x_{t}}(x^{\overline{{P + t + 1}}})(\delta_{x_{t + 1}}(x^{P + t + 1}) - \delta_{x_{t}}(x^{P + t + 1})) =δxt+1(x)−δxt(x)−δxt(xP+t+1)(δxt+1(xP+t+1)−δxt(xP+t+1)) = δ x t + 1 ( x ) − δ x t ( x ) − δ x t + 1 ( x ) + δ x t ( x ) \quad = \delta_{x_{t + 1}}(x) - \delta_{x_{t}}(x) - \delta_{x_{t + 1}}(x) + \delta_{x_{t}}(x) =δxt+1(x)−δxt(x)−δxt+1(x)+δxt(x) = 0 \quad = 0 =0
现在,一旦我们验证了连续性方程成立,我们便证明了满足连续性方程隐含着生成。为此,我们需要生成概率速度的 1-稀疏性性质:对于固定的时间步 t t t,除了可能只有一个令牌位置 j = j ( t ) j = j(t) j=j(t)(仅依赖于时间步 t t t)外, u t i = 0 u_t^i = 0 uti=0。如上所述,在 (21) 中定义的速度满足该性质。那么,由 14 采样的 X t + 1 X_{t+1} Xt+1 的 PMF 为:
p X t + 1 ( x ) = ∑ z ∈ [ d ] N p t ( z ) ∏ i = 1 N ( δ z ( x i ) + u t i ( x i , z ) ) p_{X_{t + 1}}(x) = \sum_{z\in [d]^{N}}p_{t}(z)\prod_{i = 1}^{N}(\delta_{z}(x^{i}) + u_{t}^{i}(x^{i},z)) pXt+1(x)=z∈[d]N∑pt(z)i=1∏N(δz(xi)+uti(xi,z))
= ∑ z ∈ [ d ] N p t ( z ) ( δ z ( x ) + δ z ( x j ˉ ) u t j ( x j , z ) ) \qquad = \sum_{z\in [d]^{N}}p_{t}(z)\Big(\delta_{z}(x) + \delta_{z}(x^{\bar{j}})u_{t}^{j}(x^{j},z)\Big) =z∈[d]N∑pt(z)(δz(x)+δz(xjˉ)utj(xj,z)) = p t ( x ) + ∑ z ∈ [ d ] N p t ( z ) δ z ( x j ˉ ) u t j ( x j , z ) \qquad = p_{t}(x) + \sum_{z\in [d]^{N}}p_{t}(z)\delta_{z}(x^{\bar{j}})u_{t}^{j}(x^{j},z) =pt(x)+z∈[d]N∑pt(z)δz(xjˉ)utj(xj,z) = p t ( x ) + d i v x ( p t u t ) = p t ( x ) + ( p t + 1 ( x ) − p t ( x ) ) = p t + 1 ( x ) \qquad = p_{t}(x) + \mathrm{div}{x}\big(p{t}u_{t}\big) = p_{t}(x) + (p_{t + 1}(x) - p_{t}(x)) = p_{t + 1}(x) =pt(x)+divx(ptut)=pt(x)+(pt+1(x)−pt(x))=pt+1(x)
我们将自回归采样定义为离散时间域中离散流匹配的一个实例。我们证明了对于在任何固定时间步仅在一个令牌位置非零的概率生成速度,满足连续性方程就隐含着生成。我们展示了在 19 中定义的自回归概率路径和在 21 中定义的速度满足连续性方程,因此定义了有效的概率路径和生成速度。
3.3 去中心化
上述形式化自动使得定理 1 对于自回归采样成立。现在,类似于 (McAllister et al., 2025),如果我们将目标分布 X 1 X_1 X1 定义为不相交簇 S k S_k Sk, k ∈ { 1 , 2 , ... , K } k \in \{1,2, \ldots, K\} k∈{1,2,...,K} 的并集,我们可以将方程 24 改写如下:
u t i ( x i , z ) = ∑ ( x 0 , x 1 ) ∈ [ d ] N × N u t i ( x i , z ∣ x 0 , x 1 ) p t ( z ∣ x 0 , x 1 ) π ( x 0 , x 1 ) p t ( z ) = ∑ k = 1 K 1 p t ( z ) ∑ ( x 0 , x 1 ) ∈ S k u t i ( x i , z ∣ x 0 , x 1 ) p t ( z ∣ x 0 , x 1 ) π ( x 0 , x 1 ) = ∑ k = 1 K p t ( z ∣ S k ) p t ( z ) ∑ ( x 0 , x 1 ) ∈ S k u t i ( x i , z ∣ x 0 , x 1 ) p t ( z ∣ x 0 , x 1 ) π ( x 0 , x 1 ) p t ( z ∣ S k ) = ∑ k = 1 K p t ( S k ∣ z ) p t ( S k ) u t i ( x , z ∣ S k ) ( 24 ) \begin{array}{r l} & {u_{t}^{i}(x^{i},z) = \sum_{(x_{0},x_{1})\in [d]^{N\times N}}u_{t}^{i}(x^{i},z|x_{0},x_{1})\frac{p_{t}(z|x_{0},x_{1})\pi(x_{0},x_{1})}{p_{t}(z)}}\\ & {= \sum_{k = 1}^{K}\frac{1}{p_{t}(z)}\sum_{(x_{0},x_{1})\in S_{k}}u_{t}^{i}(x^{i},z|x_{0},x_{1})p_{t}(z|x_{0},x_{1})\pi (x_{0},x_{1})}\\ & {= \sum_{k = 1}^{K}\frac{p_{t}(z|S_{k})}{p_{t}(z)}\sum_{(x_{0},x_{1})\in S_{k}}u_{t}^{i}(x^{i},z|x_{0},x_{1})\frac{p_{t}(z|x_{0},x_{1})\pi(x_{0},x_{1})}{p_{t}(z|S_{k})}}\\ & {= \sum_{k = 1}^{K}\frac{p_{t}(S_{k}|z)}{p_{t}(S_{k})} u_{t}^{i}(x,z|S_{k})} \end{array} \quad (24) uti(xi,z)=∑(x0,x1)∈[d]N×Nuti(xi,z∣x0,x1)pt(z)pt(z∣x0,x1)π(x0,x1)=∑k=1Kpt(z)1∑(x0,x1)∈Skuti(xi,z∣x0,x1)pt(z∣x0,x1)π(x0,x1)=∑k=1Kpt(z)pt(z∣Sk)∑(x0,x1)∈Skuti(xi,z∣x0,x1)pt(z∣Sk)pt(z∣x0,x1)π(x0,x1)=∑k=1Kpt(Sk)pt(Sk∣z)uti(x,z∣Sk)(24)
内层求和称为专家流(expert flow),外层求和称为路由器(router)。上述方程简单地意味着,从理论上讲,整体的生成概率速度表示为专家流的加权和。
如果我们假设数据以相等的概率从簇中采样,并且簇是凸的(即如果 X 1 ∈ S k X_1 \in S_k X1∈Sk,则 X t ∈ S k ∀ t X_t \in S_k \quad \forall t Xt∈Sk∀t),则上述公式简化为:
u t i ( x i , z ) = 1 K ∑ k = 1 K p t ( S k ∣ z ) u t i ( x , z ∣ S k ) ( 28 ) u_{t}^{i}(x^{i},z) = \frac{1}{K} \sum_{k = 1}^{K} p_{t}(S_{k}|z)u_{t}^{i}(x,z|S_{k}) \quad (28) uti(xi,z)=K1k=1∑Kpt(Sk∣z)uti(x,z∣Sk)(28)
4 方法
由于去中心化离散流匹配在纯语言模型(LM)情况下的有效性已在先前工作中(Filippova et al., 2025; Gururangan et al., 2023)得到证实,我们专注于视觉语言模型作为自回归采样的另一个实例。
4.1 专家训练
在训练期间,图像-文本对数据集被划分为 K K K 个不相交的簇,并且 K K K 个专家完全独立地在其分配的簇上进行训练。
4.2 数据分区
为了获得专家的训练簇,我们使用预训练的视觉编码器模型 (CLIP) 从数据集中唯一的图像中提取图像特征。我们训练球形平衡 k k k-means 算法将特征聚类为 K K K 个大小相等的簇。重要的是,虽然这种策略平衡了每个簇中唯一图像的数量,但它不能完全平衡图像-文本对的数量或总令牌计数。这种差异产生的原因是单个图像可能对应多个文本对,并且标题长度在不同领域之间差异很大。因此,计算负载和所需的训练步骤在专家之间可能略有不同。
4.3 推理策略
在推理时,对于带有图像 I I I 的样本,我们将簇概率设置为:其中 x = f C L I P ( I ) x = f_{\mathrm{CLIP}}(I) x=fCLIP(I) 是 CLIP 特征向量, cos ( ⋅ , ⋅ ) \cos (\cdot ,\cdot) cos(⋅,⋅) 是余弦相似度, f C L I P f_{\mathrm{CLIP}} fCLIP 是特征提取器, c j c_j cj 是簇质心, τ \tau τ 是温度参数。这意味着路由与时间无关,并且不依赖于当前的令牌序列状态。
p t ( S k ∣ z , x ) = exp ( τ ⋅ cos ( x , c k ) ) ∑ j = 1 K exp ( τ ⋅ cos ( x , c j ) ) ( 29 ) p_{t}(S_{k}|z,x) = \frac{\exp(\tau \cdot \cos(x,c_{k}))}{\sum_{j = 1}^{K}\exp(\tau \cdot \cos(x,c_{j}))} \quad (29) pt(Sk∣z,x)=∑j=1Kexp(τ⋅cos(x,cj))exp(τ⋅cos(x,ck))(29)
为了平衡理论保真度和计算效率,我们采用了 top- k k k 策略。最终输出概率经过 top- k k k 过滤并重新归一化。对于主要实验,我们取 k = 1 k=1 k=1,以确保集成推理计算预算(不包括路由成本)与密集模型相同。
5 实验
5.1 LLaVA
在实验的第一部分,我们使用了 LLaVA-1.5 (Liu et al., 2024) 微调数据集,该数据集包含来自不同来源的 62.5 万个图像-文本样本和 4.1 万个纯文本样本。
在数据分区阶段,纯文本样本在簇之间随机且均匀地分布。
我们训练了 K = 2 K=2 K=2 个专家。作为专家的初始化检查点,我们采用了视觉语言对齐阶段后的 LLaVA-1.5-7B 模型。我们有效地执行了专家的视觉指令调优阶段。
每个专家都在与密集基线相同数量的 GPU 设备上进行训练。然而,我们将每个设备的批次大小减半,以确保总训练步数与原始模型训练计划保持一致。所有其他超参数保持不变。
我们使用 CLIP-ViT-L/14@336px 作为路由机制的视觉编码器。我们选择这个特定版本是因为 LLaVA-1.5 架构已经需要它进行视觉处理。因此,通过共享编码器实现,路由的特征提取步骤在推理过程中不会产生额外的计算开销。
5.2 InternVL
在实验的第二阶段,我们使用了 InternVL 2.5 (Chen et al., 2025) 阶段 2 微调数据混合的一个子集(见表 1)。我们精心选择了代表不同任务类型的数据集,以确保全面覆盖。
与第一个实验阶段 5.1 一致,我们训练了 K = 2 K=2 K=2 个专家。我们使用 InternVL-2.5-1B-Pretrained 检查点(经过阶段 1.5 ViT+MLP 预训练后)初始化专家,并执行完整的阶段 2 微调。对于数据集分区,我们应用了前面描述的相同平衡 k k k-means 算法。
为了确保公平比较,密集基线和专家都在相同数量的 GPU 设备上训练,每个设备的批次大小为 1。我们将专家运行的梯度累积步数减半。这确保了总优化步数与密集模型基线相当。
与标准的 InternVL 训练管道不同,我们禁用了动态分辨率以加速训练。此外,训练设备的数量设置为 2,上下文长度限制为 8192 个令牌。所有其他超参数保持不变。
我们使用 CLIP-ViT-B/16 作为数据集分区和路由的视觉编码器。这导致与密集基线相比,推理过程中额外增加了 5.4% 的计算开销。
我们选择 InternVL 作为 LLaVA 的替代品,以验证我们的专家训练策略在不同架构和训练设置中的有效性。具体来说,这使我们能够对比两种不同的范式:(1) LLaVA-1.5-7B,它使用固定的 CLIP 视觉编码器,仅微调 MLP 连接器和 LLM;以及 (2) InternVL 2.5-1B,它使用 Intern-ViT-300M 编码器,并在指令调优阶段执行全参数微调(ViT+MLP+LLM)。
5.3 评估
我们使用 Liu et al. (2024) 中总共 8 个基准来评估我们的 LLaVA 模型。对于 InternVL,我们使用 Chen et al. (2025) 中总共 14 个基准进行评估,旨在评估模型在通用问答、OCR 和其他任务中的表现。
5.4 结果
总体而言,专家集成模型在计算资源匹配的密集基线上取得了接近的性能,但也存在系统性的权衡。在 LLaVA 设置中,核心问答基准的性能得以保持(VQAv2 上 +1.49;GQA 上 -0.03),而 OCR 密集型和分布偏移的基准性能下降(TextVQA 上 -1.53;VisWiz 上 -4.47)。MME 上的下降(-33.32)与分区导致的专业化下,广泛多技能覆盖范围的适度减少一致。
Table 2: LLaVA experts results on academic-task-oriented datasets
| Method | VQAv2 | GQA | VizWiz | SciQA-IMG | TextVQA |
|---|---|---|---|---|---|
| Dense baseline | 78.50 | 62.00 | 50.00 | 66.80 | 58.20 |
| 2 experts | 79.99 | 61.97 | 45.53 | 67.03 | 56.67 |
Table 3: LLaVA experts results on benchmarks for instruction-following LMMs
| Method | POPE | MME | MMBench | |||
|---|---|---|---|---|---|---|
| adv | rand | pop | en | zh | ||
| Dense baseline | 85.9 | 87.3 | 86.1 | 1510.7 | 64.3 | 58.3 |
| 2 experts | 87.1 | 85.7 | 87.3 | 1477.38 | 65.03 | 56.87 |
在 InternVL 设置中,专家集成模型在大多数通用基准上仍接近计算资源匹配的密集基线,并具有清晰、结构化的权衡。在通用问答方面,结果基本保持(VQAv2:-0.31,GQA:+1.01,SciQA-IMG:+0.25),而 MME 上的广泛多技能覆盖范围有所下降(-55.92)。在 OCR/文档风格任务上,性能表现不一:AI2D 和 ChartQA 略有提升(+0.84, +0.28),DocVQA 保持不变,但 TextVQA 下降(-4.56),这与分区导致的全域/OCR 覆盖范围减少一致。值得注意的是,视觉定位能力显著提升:RefCOCO 在所有分割上增加了 +6 至 8 点,RefCOCO+ 增加了 +5 至 7 点,这表明分区导致的专业化可以有利于侧重定位的评估。
Table 4: InternVL experts results on OCR, chart, and document understanding
| Method | AI2D | ChartQA | TextVQA | DocVQA | InfoVQA |
|---|---|---|---|---|---|
| Dense baseline | 61.66 | 61.96 | 55.47 | 48.49 | 25.02 |
| 2 experts | 62.50 | 62.24 | 50.91 | 48.49 | 24.00 |
5.5 消融研究
针对 InternVL 设置,我们还对 3 个因素进行了消融研究:专家数量;用于数据集分区和路由的图像特征提取的视觉编码器选择;以及聚类算法。
专家数量的影响 在主要的 InternVL 实验中,我们训练了 K = 2 K=2 K=2 个专家。为了测试专家数量的影响,我们还使用球形平衡 k k k-means 在 CLIP ViT-B-16 特征上训练了 K = 4 K=4 K=4 个专家。如表 7 所示, K = 4 K=4 K=4 的集成模型保持了与密集基线相当的性能,证明了去中心化方法的稳健性。与 K = 2 K=2 K=2 设置相比,轻微的性能退化可以通过数据碎片化来解释,即进一步分区会降低每个专家的样本密度。
视觉编码器的影响 在主要的 InternVL 实验中,我们使用 CLIP ViT-B-16 作为 k k k-means 输入的特征提取器,用于数据集分区和路由。为了研究视觉编码器的影响,我们还使用 CLIP ViT-L-14@336px 训练了 K = 2 K=2 K=2 个专家,并采用平衡 k k k-means 算法。如表 8 所示,使用更大的视觉编码器导致 QA 性能(VQAv2 +0.4)和 OCR 性能(TextVQA +0.81)略有提高。
聚类算法的影响 在主要的 InternVL 实验中,我们使用球形平衡 k k k-means 聚类算法进行数据集分区和路由。为了测试聚类算法的影响,我们还训练了 K = 2 K=2 K=2 个专家,使用受 McAllister et al. (2025) 启发的两阶段平衡球形 k k k-means 算法。具体来说,第一阶段是无偏地将数据细聚类成 k = 1024 k=1024 k=1024 个簇。第二阶段是平衡地将细粒度簇的质心粗聚类成 K = 2 K=2 K=2 个粗粒度簇。如表 9 所示,两阶段 k k k-means 导致通用 QA 性能略差(VQAv2 -0.37),但同时提高了 OCR 性能(TextVQA +0.78)。
6 结论
在这项工作中,我们对自回归生成的去中心化进行了理论分析。我们表明自回归采样是离散时间域中离散流匹配的一个特例。我们还通过将概率生成速度表示为专家流的线性组合,定义了离散去中心化流匹配目标。我们还通过实验证明了多模态大型语言模型(MLLMs)在各种基准上,去中心化训练和集中式训练设置之间的等效性。
未来可能的研究方向包括寻找更优化的大规模数据集分区算法,扩展模型大小和数据集,以及为图像和文本样本找到统一的路由策略。
Original Abstract: We present a theoretical analysis of decentralization of autoregressive generation. We define the Decentralized Discrete Flow Matching objective, by expressing probability generating velocity as a linear combination of expert flows. We also conduct experiments demonstrating the equivalence between decentralized and centralized training settings for multimodal language models across diverse set of benchmarks. Specifically, we compare two distinct paradigms: LLaVA and InternVL 2.5-1B, which uses a fixed CLIP vision encoder and performs full-parameter fine-tuning (ViT+MLP+LLM) during the instruction tuning stage.
PDF Link: 2601.03184v1
部分平台可能图片显示异常,请以我的博客内容为准
