MMaDA:多模态大型扩散语言模型

集众家之所长,成大一统。普林斯顿大学、北京大学、清华大学、字节跳动的研究者将"文本推理、多模态分析、图像生成"三大方向融合在一个单一扩散模型里,并用恰当的优化策略来提升模型在各个方向的性能。

研究动机

研究人员致力于开发一个能够处理多种模态任务的综合性模型,这些任务包括文本推理、多模态理解以及图像生成等。目前,大多数模型往往专注于单一任务,如文本处理、图像生成或图文理解,而能够在单一框架下同时处理这三种任务并保持高水平推理和生成质量的模型却相对稀缺。

MMaDA是一种创新的"多模态大模型"框架,该框架以"扩散模型(diffusion model)"为基础,并探讨了在这种扩散模型框架下如何进行后期的强化训练。这种训练方法类似于当前大型模型在微调和强化学习(RL)环节中提升性能的策略,旨在实现理解和生成之间的平衡。这种统一的扩散模型方案有望减少对不同模态任务"分别处理"的需求,降低模型的复杂性,并提高模型在训练和推理阶段的灵活性和效率。

研究背景

从文本生成(例如ChatGPT)到复杂推理(例如DeepSeek-R1),大型语言模型(LLMs)通过在多样化任务中取得最先进的性能,彻底改变了自然语言处理(NLP)。

受其成功的启发,研究界将 LLMs 扩展到更广的多模态领域,催生了多模态大型语言模型(MLLMs)或视觉语言模型(VLMs),例如 GPT-4和 Gemini。这些模型旨在为理解和生成异构模态(文本、图像等)提供统一框架。

早期的多模态方法将语言模型与扩散模型结合起来,分别处理离散(例如,文本)和连续(例如,图像)模态。随后的自回归(AR,autoregressive)方法通过训练一个单一的Transformer模型来进行下一个标记的预测,简化了架构,将离散和连续生成统一到一个模型中。

关键问题

扩散模型同时处理文本与图像:MMaDA提出的离散扩散方法需要先将文本和图像都编码成"离散token",然后统一进行遮盖---预测(Mask & Predict)式训练。

**UniGRPO(统一的扩散模型强化学习算法):**通常的强化学习微调算法(如PPO、DPO或RRHF)都是基于自回归模型的token概率计算。而这里的UniGRPO需要适配扩散模型特性,使得模型能够在并行生成时也能进行策略梯度的更新。

**采样效率和采样策略(Semi-AR / Non-AR):**MMaDA中文本生成有时可以用半自回归方式,以平衡质量和速度;图像生成则可以并行生成,这里面涉及不同采样(mask和解码)策略的差异。

研究内容

统一扩散架构

  • 创新点:MMaDA采用统一的扩散架构,具有共享的概率公式和模态无关的设计,无需针对不同模态(如文本和图像)设计特定的组件。这种架构能够无缝地整合和处理不同类型的数据。

  • 意义:这种设计简化了模型架构,提高了模型在不同模态间的通用性和可扩展性,降低了模型复杂度,同时保持了在各种任务上的强大性能。

混合长链推理(CoT)微调策略

  • 创新点:MMaDA实施了一种混合长链推理(CoT)微调策略,这种策略在不同模态间统一了CoT格式。通过这种方式,模型能够在文本和视觉领域之间对齐推理过程,从而在最终的强化学习(RL)阶段实现冷启动训练,增强模型处理复杂任务的能力。

  • 意义:这种策略使得模型在开始训练时就能够处理复杂的推理任务,提高了模型在多模态任务中的推理能力和泛化能力,为模型在复杂场景下的应用奠定了基础。

统一的强化学习算法(UniGRPO)

  • 创新点:MMaDA提出了UniGRPO,这是一种基于策略梯度的强化学习算法,专门针对扩散基础模型设计。UniGRPO利用多样化的奖励建模,统一了推理和生成任务的后训练过程,确保了性能的持续提升。

  • 意义:UniGRPO算法通过优化模型的推理和生成能力,使得模型在处理复杂的推理和生成任务时能够更好地保持事实一致性和逻辑连贯性,提升了模型在多模态任务中的整体性能。

状态最先进的性能

  • 创新点:通过实验结果,MMaDA在文本推理、多模态理解和文本到图像生成等关键任务上均展现出卓越的性能。它在文本推理方面超越了LLaMA-3-7B和Qwen2-7B等强大的模型,在多模态理解方面超过了Show-o和SEED-X,在文本到图像生成方面优于SDXL和Janus。

  • 意义:这些成就表明MMaDA在弥合预训练和后训练之间的差距方面非常有效,为未来多模态扩散架构的研究和开发提供了一个全面的框架,并且证明了其在多模态领域的有效性和潜力。

灵活的推理时采样策略

  • 创新点:在文本生成方面,MMaDA采用了半自回归去噪策略,结合了自回归解码和基于扩散的去噪,能够生成更详细和复杂的描述。在图像生成方面,它采用了低置信度掩码策略和余弦噪声时间表,能够生成高质量的图像。

  • 意义:这些采样策略提高了模型在不同任务上的生成效率和质量,使得模型在实际应用中能够更快地生成高质量的结果,提高了模型的实用性和用户体验。

跨任务的协同效应

  • 创新点:在联合训练过程中,MMaDA展现了文本生成、多模态理解和图像生成任务之间的协同效应。随着训练的进行,所有关键性能指标都表现出一致的提升,表明了统一训练框架的相互促进作用。

  • 意义:这种协同效应不仅提高了模型在各个任务上的性能,还增强了模型在跨模态任务中的综合能力,使得模型能够更好地理解和生成复杂的多模态内容。

任务扩展能力

  • 创新点:MMaDA能够自然地执行图像修复和外推任务,而无需额外的微调。这种能力源于扩散模型的掩码标记预测问题的训练目标,使得模型在多模态理解和文本生成任务中也能够执行这些任务。

  • 意义:这种扩展能力展示了MMaDA的灵活性和泛化能力,使其能够适应更多样化的任务场景,为模型在实际应用中的广泛部署提供了更多可能性。

核心公式

离散扩散的统一建模

Mixed Long-CoT 微调

UniGRPO统一的强化学习

[2505.15809] MMaDA: Multimodal Large Diffusion Language Models
Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang

相关推荐
说私域18 分钟前
基于开源AI智能客服、AI智能名片与S2B2C商城小程序的餐饮行业私域流量运营策略研究
人工智能·小程序·流量运营
zzywxc78719 分钟前
PyTorch分布式训练深度指南
人工智能·pytorch·分布式·深度学习·wpf·技术栈深潜计划
codelancera21 分钟前
Pytorch-04 搭建神经网络架构工作流
人工智能·pytorch·神经网络
AKAMAI26 分钟前
为流媒体时代而生的云服务:Akamai 推出 Accelerated Compute 加速计算服务
人工智能·云计算
白熊18827 分钟前
【大模型LLM】大模型训练加速 - 数据并行(Data Parallelism, DP)原理详解
人工智能·大模型·llm
许泽宇的技术分享29 分钟前
「一键召唤 007」:开源多智能体 JoyAgent-JDGenie 如何让你的 AI 产品从 Demo 到 真香 只差 Ctrl+C / Ctrl+V?
c语言·人工智能·开源
bin91531 小时前
「源力觉醒 创作者计划」_文心大模型4.5系列开源模型, 从一行代码到一个生态:聊聊开源战略那些事儿,顺便扯扯文心大模型 4.5 的使用心得
人工智能·开源·文心一言·文心大模型·4.5系列开源模型
hunteritself1 小时前
DeepSeek 论文夺冠,智谱开源 GLM-4.5,OpenAI 学习模式上线!| AI Weekly 7.28-8.3
人工智能·学习·chatgpt·开源·bug·powerpoint
老鱼说AI1 小时前
Vision Transformer (ViT) 详解:当Transformer“看见”世界,计算机视觉的范式革命
人工智能·深度学习·transformer
Dymc1 小时前
【计算机视觉与代码大模型全景解析:从理论基础到学习路线】
人工智能·学习·计算机视觉