MMaDA——开源首个多模态大扩散语言模型

MMaDA是一个全新的多模态扩散基础模型家族,旨在文本推理、多模态理解和文生图等多个领域实现卓越性能。该模型凭借三大创新点脱颖而出:

  1. 采用统一扩散架构:共享概率框架与模态无关设计,无需特定模态组件
  2. 创新混合长思维链微调策略:跨模态构建统一思维链格式
  3. 开发专用强化学习算法UniGRPO:基于策略梯度的统一训练方法,通过多样化奖励建模实现推理与生成任务的后训练统一,确保持续性能提升

📰 最新动态

  • 2025-05-22\] 我们发布了MMaDA模型的推理与训练代码,支持文本生成、多模态生成及图像生成任务。

  • 2025-05-22\] 首篇统一多模态扩散模型MMaDA的[研究论文](https://arxiv.org/abs/2505.15809)及[演示平台](https://huggingface.co/spaces/Gen-Verse/MMaDA)正式上线。

MMaDA 包含一系列反映不同训练阶段的检查点:

  1. MMaDA-8B-Base: 在预训练和指令微调之后。具备基本的文本生成、图像生成、图像描述和思维能力。
  2. MMaDA-8B-MixCoT (coming soon): 经过混合长思维链(CoT)微调。具备复杂的文本、多模态和图像生成推理能力。将于两周内发布。
  3. MMaDA-8B-Max (coming soon): 经过UniGRPO强化学习后,擅长复杂推理和惊艳的视觉生成。将在一个月后发布。

⚙️ 快速入门

首先,设置环境:

bash 复制代码
pip install -r requirements.txt

启动本地 Gradio 演示:

bash 复制代码
python app.py

🚀 推理

对于批量级别的推理任务,我们在此提供相关的推理脚本。

1. 文本生成

在文本生成方面,我们遵循LLaDA的配置和生成脚本。只需运行:

bash 复制代码
python generate.py
2. 多模态生成

对于多模态生成和文本到图像生成,首先登录您的wandb账户:

bash 复制代码
wandb login

多模态生成推理演示,您可以在wandb上查看结果

bash 复制代码
python3 inference_mmu.py config=configs/mmada_demo.yaml mmu_image_root=./mmu_validation question='Please describe this image in detail.' 
3. 文本到图像生成

对于多模态生成和文本到图像生成,首先登录您的wandb账户:

bash 复制代码
wandb login

文本到图像生成的推理演示,您可以在wandb上查看结果

bash 复制代码
python3 inference_t2i.py config=configs/mmada_demo.yaml batch_size=1 validation_prompts_file=validation_prompts/text2image_prompts.txt guidance_scale=3.5 generation_timesteps=15
mode='t2i'
相关推荐
ZStack开发者社区几秒前
全球化 2.0 | 云轴科技ZStack助力中东智慧城市高性能智能安防云平台
人工智能·云计算·智慧城市
文火冰糖的硅基工坊29 分钟前
[创业之路-374]:企业战略管理案例分析-战略制定/设计-市场洞察“五看”:看宏观之当前的国际环境、国家产业政策中的机会与风险
人工智能·华为·架构·系统架构·跨学科
kovlistudio2 小时前
机器学习第二十六讲:官方示例 → 跟着菜谱学做经典菜肴
人工智能·机器学习
从零开始学习人工智能2 小时前
车道线检测:自动驾驶的“眼睛”
人工智能·机器学习·自动驾驶
J_Xiong01172 小时前
【VLNs篇】05:TGS-在无地图室外环境中使用视觉语言模型进行轨迹生成和选择
人工智能·机器学习·语言模型
江畔柳前堤2 小时前
PyQt学习系列05-图形渲染与OpenGL集成
开发语言·javascript·人工智能·python·学习·ecmascript·pyqt
点云SLAM2 小时前
PyTorch中cdist和sum函数使用详解
数据结构·人工智能·pytorch·python·点云数据处理·3d深度学习·张量计算
Christo33 小时前
SIAM-2007《k-means++: The Advantages of Careful Seeding》
大数据·人工智能·算法·机器学习·支持向量机·kmeans
IT技术猿猴3 小时前
一键生成专业流程图:Draw.io与AI结合的高效绘图指南
人工智能·流程图·draw.io
缘友一世3 小时前
PyTorch中TensorBoardX模块与torch.utils.tensorboard模块的对比分析
人工智能·pytorch·python