谢赛宁 x LeCun x Meta 多模态新作:Beyond Language Modeling (Insight 拉满)

Motivation

从vision encoder, Architecture:MoE/Dense, multimodal data,world modeling,scaling laws of UMMs 等几个方面对Native multimodal pretraining 进行探索;

Contribution

4 Suggestions

a. RAE 对于视觉理解和生成是最优的;

b.视觉和文本数据是互补的, 并且在下游任务中表现出协同效应;

c.UMMs能够从各类数据的预训练中naturally 走向world modeling, 并且涌现出各种能力;

d.MoE 是一种effective and efficient 结构,并且促成了modality specialization;

Findings

通过IsoFLOP 分析发现vision 相比较于language 更加data-hungry;并且进一步证明MoE更适合用来建模多模态统一理解生成模型;

模型结构和数据介绍:

model

· 采用TransFusion结构,next-token for Language and diffusion for vision gen;

· hybrid attention,language 采用causal,vision 采用block-wise,每个视频帧内部share attn;

· 采用LLaMA3 text encoder;

· modality-specific FFNs:即text 和vision 不共享参数,而是各自拥有自己的参数;相当于2 experts,并且视觉和语言各自一个专门的expert (后文探索了改为MoE);

Data

520B text + 520B Multuimodal data 总计1T tokens

web text;

youtube video at 1FPS;

paired image-text data;

action-conditioned navigation 轨迹 I+T --> I ;

Cambrian-7M dataset 用作VQA 任务的微调,1 epoch;

Evaluation

Representation AutoEncoder

· finding1:最终结果是RAE这种方式效果最好;(这里的生成只测试了文生图,但是没有测试图像编辑)

· finding2: 视觉模态并不会影响文本模态,比如前两个图表,并且发现多模态训练甚至会提升(相比较于纯文本的训练);

· finding3:single encoder也能产生很好的理解生成能力,尤其是除了VQA之外,在geneval和dpgbench上也取得了优于vae的效果;

· finding4: JIT(kaiming)虽然生成能力落后比较多,但是理解上相差不是特别多(作者认为继续scaling compute等可以做的更好);

Pretraining data composition

finding2:发现采用video+text的形式并不会特别影响语言的建模;这说明video data at least compatible with text, 并且有可能对language modeling有促进作用;这说明视觉表征并不是导致modality competition 的主要原因;

这里DCLM是in domain测试,而Notes是ood;作者认为ood效果变差,(This suggests that multimodalpretraining may introduce a minor trade-off in text generalization. )

对于退化问题做了进一步解释:a shift in the text distribution from introducing image captions

作者对于不同的caption数据做了对比,表格中的cosine distance和第二个图结果一致,证明caption和llm 分布差异越大,带来的退化就越严重;

· finding6: ti pairs 对于视觉理解生成能力是非常重要的;而视觉理解任务能够从broader data diversity中收益;

· finding7: language helps vision, vision minimally impacts language;(图8 固定image tokens数目,增加text tokens,diffusion loss逐步下降)

使用混合模态的数据,比单一模态的数据好(左图);使用多样的数据形式,比只采用VQA 数据要好(右图)只采用20B indomain data 然后加上异构的80B 数据会优于100B indomain data,说明diverse training 是更优越的)

Towards World Modeling

直接采用文本描述的action 作为输入,不需要修改模型结构;

fig12:相比较于纯粹的NWM data-100B, 采用50BNWM data+other multimodal data可以实现更好的效果;

尤其是video data/text action;

作者认为这说明 world modeling 能力的解锁需要multimodal pretraining 而不是domain specific knowledge;

fig13:采用不同比例的NWM 和 general VQA ,总共200B,发现只用NWM 1%数据就可以解锁 world modeling 能力,同样证明这些能力来自于 general multimodal pretraining;

除了按键,还支持一些自然语言的描述;

Architecture Design-MoE

Granularity,Sparsity, Prediction Targets, Shared Experts;

Granularity

采用57B 文本/图像数据 half-half 混合进行验证;采用VAE 和 RAE 两种方式进行比较;

这里的Granularity 是指active expert number,或者说top-G路由;专家总数为16*G;这里采用FFN 比较常见的ratio=4,则随着granularity 增大,每个expert的dimension是降低的;因此激活维度是固定的8192;

如 G=1, expert_dim = 8192;

G=16,expert_dim = 512;

以上实验总的expert 数目为32, active expert 数目为16;

几点观察:

· granularity 越大,即分配的experts numer越多(每个expert 分配的dimension更小),效果越好(但也会饱和);

· RAE 生成效果更好;

Prediction target depends on visual representation:

· 对于RAE,x-pred 优于 v-pred, 对于VAE,v-pred优于 x-pred;

· 对于vision, 4 group就已经饱和,对于language 16 group会饱和, 因此作者认为 language benifits more(parameter-hungry);

Sparsity (Scaling Total Experts)

继续扩大total experts from 32 to 1008;

保持active expert number为16,持续扩大total expert,language 和vision 性能持续提升;

(不会有负载不均衡的现象吗?)

同样做了vae 和rae的对比,随着experts增多,RAE loss一直在降低,说明RAE scalability 更强;

Expert design choices

一共三种设计方案:

· 常规的top-16

· 一个全模态共享的expert + top-15;

· 一个text 共享expert + 一个vision 共享expert + top-14;

per-modality shared experts 效果更好;

Emergent Expert Specialization 验证不同模态倾向于激活的专家

fig18:采用大致相等的数据去训练,发现language激活的experts数目更多;

fig19:激活的experts数目time-invariant,与time step无关(目的是探索Wan相关的动机,按照PSNR 区分两个experts)

fig20:但是对于视觉理解/生成 的experts是比较集中的,重合度在90%左右;这说明视觉内部能够形成统一的表征;能够印证之前的工作结论----理解生成可以相互增益;

回顾几个结论:

Vision encoder.

比较VAE,RAE,BAGEL一样的双encoder, 最终RAE在理解和生成上效果都最好;
Parameter separation strategy.

与dense model, MoT相比,MoE实现了最好的效果,无论是理解还是生成;

除了性能之外,MoE还有一个优势,learning from data generally outperforms hand-crafted designs
Prediction target.

采用x-pred 提升了生成效果;
Knowledge-informed generation.

在WISE上进行world knowledge的生成测试,上图分别证明了RAE encoder的重要性以及MoE结构的优越性;

Scaling law of UMMs

研究问题如下

  • 在统一多模态(语言+视觉)模型里,给定总算力 C,模型参数规模 N 和训练 token 数 D 应该怎么配最优?
  • 稠密模型与 MoE 稀疏模型在这个问题上的规律是否不同?
  • 多模态里语言与视觉的最优配比是否一致?
    对于Dense Model:
    FLOPs≈6ND≈C.
    一个线性权重 w 在一次前向+反向中大约会被用到 3 次乘加(各含乘和加),合计约 6 次浮点运算。
    意思是当总算力C 固定,模型参数N也固定的时候,训练的tokens = C/(6N);这样固定的C ,实际是一个反函数,能找到最佳的ND pairs;
    对于MoE:
    采用实际激活的参数值统计计算量;


    a+b=1 目的是让左右式子的量纲一致;

Compute-optimal for dense models.

最终结果,对于Language:

Nopt = 0.47, Dopt=0.53

对于Vision

Nopt = 0.37, Dopt=0.63

这说明vision是data-hungry;

Compute efficiency for dense models.


Compute-optimal for MoE models.

终结果,对于Language:

Nopt = 0.41, Dopt=0.59

对于Vision

Nopt = 0.36, Dopt=0.64

这里参数发生了shift, 比如语言对数据的依赖程度变高了。作者解释如下

MoE compute efficiency. MoE 架构下,多模态联合训练是否能匹配单模态专用模型?

主要结论:

相关推荐
xier_ran2 小时前
【第一周】论文精读:Lost in the Middle: How Language Models Use Long Contexts
人工智能·语言模型·自然语言处理·agent·rag
大模型任我行2 小时前
字节:14B模型实时生成长视频
人工智能·语言模型·音视频·论文笔记
IT_陈寒2 小时前
JavaScript开发者必知的5个性能杀手,你踩了几个坑?
前端·人工智能·后端
Shining05962 小时前
Triton & 九齿系列《Triton 练气术》
开发语言·人工智能·python·学习·其他·infinitensor
东离与糖宝2 小时前
GraalVM+Project Leyden实战:Spring Boot应用原生编译,Serverless冷启动自由
java·人工智能
数字供应链安全产品选型2 小时前
面向AI风险治理,悬镜原创多模态AIST新品问境AIST正式发布,提升AI自身安全!
人工智能·自然语言处理
AIwenIPgeolocation2 小时前
基于昇腾算力+鲲鹏服务器实现国产化环境的OpenClaw高效应用,解锁AI自动化新体验
服务器·人工智能·自动化
星爷AG I3 小时前
14-1 运动组织(AGI基础理论)
人工智能·agi
Volunteer Technology3 小时前
一键部署OpenClaw(阿里云和京东云)
人工智能·chatgpt·transformer