Lumina-DiMOO：用于多模态生成与理解的全扩散大语言模型

DisonTangor2025-10-16 10:31

📚 简介

我们推出Lumina-DiMOO------一个实现无缝多模态生成与理解的全能基础模型。Lumina-DiMOO凭借四大创新突破脱颖而出：

统一的离散扩散架构：采用完全离散的扩散建模处理跨模态输入输出，这与先前统一模型形成显著差异。
全能多模态能力：支持广泛的多模态任务，包括文本到图像生成（支持任意高分辨率）、图像到图像生成（如图像编辑、主体驱动生成和图像修复等），以及高级图像理解。
更高采样效率：相比传统自回归或混合自回归-扩散范式，Lumina-DiMOO展现出卓越的采样效率。我们还设计了定制缓存方法，使采样速度进一步提升2倍。
顶尖性能表现：在多项基准测试中达到最先进水平，超越现有开源统一多模态模型，树立了领域新标杆。

📽️ 定性结果

这里我们展示了与其他模型的部分生成效果对比。更多可视化结果请参见我们的项目主页。

文本到图像比较

图片编辑对比

可控性与主题驱动生成对比

图像修复与外推

📊 量化表现

GenEval Benchmark

DPG Benchmark

OneIG-EN Benchmark

TIIF Benchmark

Image-to-Image Benchmark

Image Understanding Benchmark

🚀 采样速度分析

由于文本生成是以块为单位进行的，与图像生成采用单一全局解码步骤不同，其速度受块数和步数的双重影响。因此，图像理解的速度提升不如图像生成显著。
Lumina-DiMOO 设置：图像生成采样64步；图像理解设置块长度为256，采样步数为128。

采样速度对比

📜 致谢

本工作还得到了MindSpeed MM的支持与实现，这是一个由华为计算产品线开发并维护的开源大规模多模态模型训练框架，专为分布式训练而设计。MindSpeed MM特别针对华为昇腾AI芯片进行了优化，为分布式训练提供全面支持，并适用于广泛的多模态任务。

上一篇：LeetCode:538. 把二叉搜索树转换为累加树/1038. 从二叉搜索树到更大和树

下一篇：springboot实现微信小程序支付（服务商和普通商户模式）

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 092026 年 AI 大模型 & AI 编程工具实战全总结 102026开年大模型最新对比解析及场景落地指南