谢赛宁 x LeCun x Meta 多模态新作：Beyond Language Modeling (Insight 拉满)

Motivation

从vision encoder, Architecture：MoE/Dense, multimodal data，world modeling，scaling laws of UMMs 等几个方面对Native multimodal pretraining 进行探索；

Contribution

4 Suggestions

a. RAE 对于视觉理解和生成是最优的；

b.视觉和文本数据是互补的，并且在下游任务中表现出协同效应；

c.UMMs能够从各类数据的预训练中naturally 走向world modeling, 并且涌现出各种能力；

d.MoE 是一种effective and efficient 结构，并且促成了modality specialization;

Findings

通过IsoFLOP 分析发现vision 相比较于language 更加data-hungry;并且进一步证明MoE更适合用来建模多模态统一理解生成模型；

模型结构和数据介绍：

model

· 采用TransFusion结构，next-token for Language and diffusion for vision gen;

· hybrid attention，language 采用causal，vision 采用block-wise，每个视频帧内部share attn；

· 采用LLaMA3 text encoder;

· modality-specific FFNs：即text 和vision 不共享参数，而是各自拥有自己的参数；相当于2 experts，并且视觉和语言各自一个专门的expert (后文探索了改为MoE);

Data

520B text + 520B Multuimodal data 总计1T tokens

web text;

youtube video at 1FPS;

paired image-text data;

action-conditioned navigation 轨迹 I+T --> I ;

Cambrian-7M dataset 用作VQA 任务的微调，1 epoch；

Evaluation

Representation AutoEncoder

· finding1:最终结果是RAE这种方式效果最好；（这里的生成只测试了文生图，但是没有测试图像编辑）

· finding2: 视觉模态并不会影响文本模态，比如前两个图表，并且发现多模态训练甚至会提升（相比较于纯文本的训练）；

· finding3：single encoder也能产生很好的理解生成能力，尤其是除了VQA之外，在geneval和dpgbench上也取得了优于vae的效果；

· finding4: JIT（kaiming）虽然生成能力落后比较多，但是理解上相差不是特别多（作者认为继续scaling compute等可以做的更好）；

Pretraining data composition

finding2:发现采用video+text的形式并不会特别影响语言的建模；这说明video data at least compatible with text, 并且有可能对language modeling有促进作用；这说明视觉表征并不是导致modality competition 的主要原因；

这里DCLM是in domain测试，而Notes是ood；作者认为ood效果变差，（This suggests that multimodalpretraining may introduce a minor trade-off in text generalization. ）

对于退化问题做了进一步解释：a shift in the text distribution from introducing image captions

作者对于不同的caption数据做了对比，表格中的cosine distance和第二个图结果一致，证明caption和llm 分布差异越大，带来的退化就越严重；

· finding6: ti pairs 对于视觉理解生成能力是非常重要的；而视觉理解任务能够从broader data diversity中收益；

· finding7: language helps vision, vision minimally impacts language；（图8 固定image tokens数目，增加text tokens，diffusion loss逐步下降）

使用混合模态的数据，比单一模态的数据好（左图）；使用多样的数据形式，比只采用VQA 数据要好（右图）只采用20B indomain data 然后加上异构的80B 数据会优于100B indomain data，说明diverse training 是更优越的）

Towards World Modeling

直接采用文本描述的action 作为输入，不需要修改模型结构；

fig12:相比较于纯粹的NWM data-100B，采用50BNWM data+other multimodal data可以实现更好的效果；

尤其是video data/text action;

作者认为这说明 world modeling 能力的解锁需要multimodal pretraining 而不是domain specific knowledge；

fig13:采用不同比例的NWM 和 general VQA ，总共200B，发现只用NWM 1%数据就可以解锁 world modeling 能力，同样证明这些能力来自于 general multimodal pretraining;

除了按键，还支持一些自然语言的描述；

Architecture Design-MoE

Granularity，Sparsity, Prediction Targets, Shared Experts;

Granularity

采用57B 文本/图像数据 half-half 混合进行验证；采用VAE 和 RAE 两种方式进行比较；

这里的Granularity 是指active expert number，或者说top-G路由；专家总数为16*G；这里采用FFN 比较常见的ratio=4，则随着granularity 增大，每个expert的dimension是降低的；因此激活维度是固定的8192；

如 G=1, expert_dim = 8192;

G=16,expert_dim = 512;

以上实验总的expert 数目为32, active expert 数目为16；

几点观察：

· granularity 越大，即分配的experts numer越多(每个expert 分配的dimension更小)，效果越好(但也会饱和)；

· RAE 生成效果更好;

Prediction target depends on visual representation：

· 对于RAE，x-pred 优于 v-pred，对于VAE，v-pred优于 x-pred;

· 对于vision, 4 group就已经饱和，对于language 16 group会饱和，因此作者认为 language benifits more(parameter-hungry);

Sparsity (Scaling Total Experts)

继续扩大total experts from 32 to 1008；

保持active expert number为16，持续扩大total expert，language 和vision 性能持续提升;

(不会有负载不均衡的现象吗？)

同样做了vae 和rae的对比，随着experts增多，RAE loss一直在降低，说明RAE scalability 更强；

Expert design choices

一共三种设计方案：

· 常规的top-16

· 一个全模态共享的expert + top-15;

· 一个text 共享expert + 一个vision 共享expert + top-14;

per-modality shared experts 效果更好；

Emergent Expert Specialization 验证不同模态倾向于激活的专家

fig18:采用大致相等的数据去训练，发现language激活的experts数目更多；

fig19:激活的experts数目time-invariant,与time step无关（目的是探索Wan相关的动机，按照PSNR 区分两个experts）

fig20：但是对于视觉理解/生成的experts是比较集中的，重合度在90%左右；这说明视觉内部能够形成统一的表征；能够印证之前的工作结论----理解生成可以相互增益；

回顾几个结论：

Vision encoder.

比较VAE，RAE，BAGEL一样的双encoder，最终RAE在理解和生成上效果都最好；
Parameter separation strategy.

与dense model, MoT相比，MoE实现了最好的效果，无论是理解还是生成；

除了性能之外，MoE还有一个优势，learning from data generally outperforms hand-crafted designs
Prediction target.

采用x-pred 提升了生成效果；
Knowledge-informed generation.

在WISE上进行world knowledge的生成测试，上图分别证明了RAE encoder的重要性以及MoE结构的优越性；

Scaling law of UMMs

研究问题如下

在统一多模态（语言+视觉）模型里，给定总算力 C，模型参数规模 N 和训练 token 数 D 应该怎么配最优？
稠密模型与 MoE 稀疏模型在这个问题上的规律是否不同？
多模态里语言与视觉的最优配比是否一致？
对于Dense Model：
FLOPs≈6ND≈C.
一个线性权重 w 在一次前向+反向中大约会被用到 3 次乘加（各含乘和加），合计约 6 次浮点运算。
意思是当总算力C 固定，模型参数N也固定的时候，训练的tokens = C/(6N)；这样固定的C ，实际是一个反函数，能找到最佳的ND pairs；
对于MoE：
采用实际激活的参数值统计计算量；

a+b=1 目的是让左右式子的量纲一致；