【3D 场景生成】MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

MIDI：面向单张图像生成三维场景的多实例扩散模型

源码链接：https://huanngzh.github.io/MIDI-Page/

发表：CVPR_2025

图1 (a)场景生成；(b)泛化性验证

图1说明：MIDI在预训练的单物体图像转三维生成模型基础上进行拓展，构建多实例扩散模型，并采用全新多实例注意力机制捕捉物体间交互关系，实现从单张图像生成组合式三维场景。(a)对比本文生成场景与现有重建方法的输出结果；(b)展示本方法在合成数据、真实图像、风格化图像上的生成效果。

摘要

本文提出MIDI，一种由单张图像生成组合式三维场景的全新算法框架。现有方法要么依托重建或素材检索技术，要么采用分阶段逐个生成物体的实现思路；与之不同，MIDI将预训练的图像到三维单物体生成模型拓展为多实例扩散模型，能够同步生成多个三维实例，输出的物体空间位置精准，同时具备优秀的泛化性能。MIDI的核心创新在于多实例注意力机制，该模块可在生成流程中直接捕捉物体间交互关系与场景空间一致性，无需复杂的多步处理流程。该方法以局部物体图像和全局场景上下文作为输入，在三维生成的同时直接完成残缺物体的补全。训练阶段，本方法仅利用少量场景级标注数据监督三维实例之间的相互约束，同时引入单物体数据集做正则化约束，以此保留预训练模型原本的泛化能力。本文在合成数据集、真实场景数据、文生扩散模型生成的风格化场景图像上完成评测，实验结果表明MIDI在单图转三维场景生成任务上达到当前最优性能。

1 引言

仅凭单张图像生成多物体组合式三维场景存在很大难度，原因是单视角画面所能提供的空间线索十分有限。想要精准还原场景中每个实例的三维几何，以及多个物体之间的空间位置关系，模型需要海量三维视觉先验知识作为支撑。

根据先验知识的使用模式，现有方法可以划分为两类。第一类方法使用场景级三维数据集训练神经网络完成三维几何编码，后续依靠前向传播对新输入图像做几何推理。受标注三维场景数据稀缺的限制，该类方法在未见过的陌生场景中重建效果较差。第二类方法预先在数据库中存储三维模型，推理时根据输入图像检索近似模型并拼接适配原图。但单张图像能够提供的几何信息不足，难以精准筛选和排布对应模型；同时三维素材库无法囊括所有和输入画面完全匹配的物体，检索得到的模型只能和原图粗略对齐，极易出现空间错位。综上，两类现有方法在全新物体外形、陌生场景布局等域外场景下，都难以兼顾重建精度与泛化能力。

近年来涌现的图像转三维物体生成模型依托强大的三维先验与泛化能力，仅凭单个物体图像就能生成高质量几何模型。基于这类预训练模型，目前主流的场景生成思路是将其作为组件嵌入多阶段组合生成流程：依次完成场景图像分割、单物体图像补全、逐个生成三维物体、优化物体空间位置关系，如图 2 所示。这类方法虽然可以复用三维物体生成模型的先验，但生成流程繁琐，容易出现误差累积 ------ 中间步骤产生的误差会大幅劣化最终结果。此外，各物体是在缺少全局场景上下文的条件下逐个生成的，后续的空间关系优化无法对已生成的三维物体做修正，最终导致生成实例和整体场景排布错位。因此，若能在三维生成模型内部直接建模物体间空间关系，就能够搭建端到端框架，同步生成所有实例并保证空间排布连贯，解决上述问题。

图2 本文多实例扩散生成流水线与现有组合生成方法的架构对比

图2说明：(a)传统分步式组合生成方案；(b)基于多实例扩散的本文方案。传统方案流程为图像分割、图像补全、逐个三维物体生成、布局优化；本文依托多实例扩散与多实例注意力，输入物体图像即可同步完成全部实例的三维生成。

本文提出MIDI，将预训练的单物体图像转三维生成模型拓展为多实例扩散模型，开辟组合式三维场景生成的全新范式。依托大规模预训练图像-三维生成底座，MIDI通过自研多实例注意力机制，在生成过程中直接建模复杂的物体交互与空间一致性，省去繁琐的多阶段分步流程，直接生成结构完整统一的三维场景，大幅提升生成效率与结果精度。鉴于物体间空间位置规律具备通用性，训练过程仅需少量场景数据集即可完成实例交互的监督约束，额外引入单物体数据做正则，保留预训练模型自带的泛化性能。

为验证本范式有效性，本文在合成数据集、真实场景数据、文生扩散模型生成的各类风格场景图像上开展实验。实验证明：依托嵌入预训练三维生成网络的多实例注意力模块精准建模物体交互，MIDI显著提升三维场景生成效果，输出几何体与空间布局精准，同时泛化能力优异。本文核心贡献总结如下：

提出多实例扩散模型，拓展预训练单物体图生三维模型的能力，实现具备空间关联的多实例三维同步生成，搭建全新组合式三维场景生成框架；
设计全新多实例注意力机制，有效建模跨实例交互，保障生成物体空间位置准确、场景整体结构连贯统一；
多组实验证明MIDI取得SOTA性能，依托精准建模物体间位置关系，相比现有方案显著提升三维场景生成质量与原图匹配度。

2 相关工作

2.1 基于单张图像的场景重建

从单张图像还原场景三维结构是计算机视觉领域的经典难题。现有相关方法可分为三大类：前馈重建方法、基于检索的重建方法以及近年兴起的组合式生成方法。

前馈重建方法

前馈重建方法借助三维空间先验知识，采用三维标注监督训练端到端回归网络，大多基于编码器-解码器架构，由单张图像预测场景几何、实例标签等属性。该类方法可以联合预测场景布局与物体位姿，保证内在逻辑统一，但受三维场景标注数据稀缺制约，域外图像的重建效果差、泛化性能薄弱。

基于检索的重建方法

基于检索的方法根据输入图像从三维素材库中检索匹配模型并对齐摆放以完成场景重建。例如DiffCAD在合成数据监督下训练扩散模型，建模CAD物体外形、位姿、尺度的分布规律，实现CAD模型检索与图像对齐。这类方法依托现成三维资产能够生成细节丰富的物体，但效果高度依赖素材库的完备度；单图像有效信息有限容易引发检索失误，最终物体错位问题频发。

组合式生成方法

近年提出的组合式生成方法结合图像域与三维物体域的预训练大模型优化场景重建效果，常规流水线包含图像分割、物体图像补全、单体三维生成、空间布局优化四个步骤。该类方案凭借预训练模型获得更强泛化性，但多级串联架构极易累积误差；单体生成阶段缺失全局场景上下文，最终生成物体和场景匹配错位。本文方法改进上述痛点：复用预训练图生三维模型，一次性同步生成存在空间约束的多个三维实例，提升生成鲁棒性并保留优秀泛化能力。

2.2 单图驱动的三维物体生成

扩散模型与大规模数据集的发展推动了单图三维物体生成技术迭代。现有技术路线分为两类：

第一类采用两阶段架构：先微调预训练图像/视频扩散模型生成多视角图像，再依靠专用重建模型或优化算法由多视图还原三维几何体。

第二类直接原生生成三维几何：依托变分自编码器与潜在扩散Transformer(DiT)搭建生成框架，在海量多样数据集上训练，产出高质量几何体且泛化性能突出。

本文基于第二类成熟的预训练几何体生成模型微调，实现多实例组合生成，同时保留原有泛化能力。

3 预备知识：三维物体生成基础模型

本文整套方法建立在大规模单物体三维生成模型之上，该类模型主要由三部分构成：

基于Transformer结构的变分自编码器（VAE）：包含编码器 ε \varepsilon ε和解码器 D D D，将三维几何表征压缩至低维隐空间；
去噪Transformer网络 ϵ θ \epsilon_{\theta} ϵθ：在压缩后的隐空间上训练，把服从 ϵ ∼ N ( 0 , I ) \epsilon \sim N(0,I) ϵ∼N(0,I)分布的噪声还原为原始三维数据分布 z 0 z_0 z0；
条件编码器：如CLIP、DINO编码器，用于编码文本或图像条件信息，经由交叉注意力送入去噪网络。

推理阶段，模型在隐空间完成去噪采样，解码器 D D D输出符号距离函数（SDF）数值或三平面特征等几何表征，再通过移动立方体算法或附加映射网络转换为三维网格模型。

4 MIDI：多实例三维生成算法

MIDI将单物体三维生成任务拓展为多实例组合生成，由单张场景图像生成空间位置相互约束的三维场景。给定一张场景图像，模型目标是生成图像中 N N N个实例对应的具备空间关联的三维隐变量 { z 0 i } i = 1 N \{z_{0}^{i}\}_{i=1}^{N} {z0i}i=1N，隐变量经过解码拼接即可得到完整高质量三维场景。

4.1节介绍多实例扩散整体框架，说明如何将单物体扩散模型拓展至多实例交互场景；4.2节详述核心的多实例注意力机制，用于建模三维空间跨实例依赖关系；4.3节介绍MIDI的训练方案。

4.1 多实例扩散模型

图3 算法整体框架图

图3说明：在已有三维物体生成模型基础上，MIDI采用权重共享的DiT模块并行对多个三维实例隐表征做去噪；新增多实例注意力层学习跨实例交互、实现全局场景感知，交叉注意力层融合单体图像与全局场景上下文信息。

如图3所示，本文从三方面改造原有DiT模块，实现多实例并行去噪：1）使用共享去噪网络对多个三维实例的隐表征同步并行去噪；2）在DiT中嵌入自研多实例注意力，学习跨实例交互、引入全局场景感知；3）设计高效图像输入编码方案，统一处理局部物体图像与全局场景上下文。

框架总览

多实例扩散模型沿用基础模型的VAE模块，将多个实例的三维几何压缩为低维隐特征 { z 0 i } i = 1 N \{z_{0}^{i}\}{i=1}^{N} {z0i}i=1N；改造原有去噪网络 ϵ θ \epsilon{\theta} ϵθ，新增全局场景图像 c g c_g cg、 N N N张局部物体RGB图 { c l i } i = 1 N \{c_{l}^{i}\}{i=1}^{N} {cli}i=1N与对应掩码 { m l i } i = 1 N \{m{l}^{i}\}{i=1}^{N} {mli}i=1N作为条件输入。去噪网络学习将噪声 { ϵ i ∼ N ( 0 , I ) } i = 1 N \{\epsilon^{i} \sim N(0,I)\}{i=1}^{N} {ϵi∼N(0,I)}i=1N拟合真实三维数据分布，同步学习多个实例的空间排布规律。

跨实例交互建模

组合式场景生成要求多个生成物体在三维空间具备合理的位置约束。本文在去噪流程中引入多实例注意力，在隐特征空间建模实例间交互，将彼此独立的单体生成转为协同联动的同步生成，提升场景全局连贯性、精准约束物体空间位置。

图像条件编码

为了编码所有图片条件，我们提出了一种简单有效的方法，包括：1）基于ViT结构的图像编码器 τ θ \tau_{\theta} τθ提取全局场景信息、局部实例细节与位置信息；2）借助交叉注意力嵌入图像特征。针对单个实例 z i z^i zi，将其RGB图 c l i c_{l}^{i} cli、掩码 m l i m_{l}^{i} mli与全局场景图 c g c_g cg沿通道维度拼接，得到维度为 y ∈ R h × w × c y \in \mathbb{R}^{h×w×c} y∈Rh×w×c的复合特征，其中 c = 7 c=7 c=7；将复合图像送入扩展输入通道的ViT编码器提取图像特征，最终在Transformer去噪网络中通过交叉注意力融合条件信息。

4.2 多实例注意力机制

多实例注意力是MIDI实现跨实例空间约束的核心，该机制在原有单体自注意力基础上，打通不同实例之间的特征交互通道（见图3）。

具体实现：将原有 K K K层单体自注意力改造为多实例注意力，融合全场景所有实例特征 { f i } i = 1 N \{f^{i}\}_{i=1}^{N} {fi}i=1N参与注意力计算，计算公式：

f o u t i = A t t e n t i o n ( f i , { f j } j = 1 N ) f_{out }^{i}=Attention\left(f^{i},\left\{f^{j}\right\}_{j=1}^{N}\right) fouti=Attention(fi,{fj}j=1N)

式中 f i f^{i} fi代表第 i i i个实例特征， A t t e n t i o n ( ⋅ ) Attention(\cdot) Attention(⋅)代表注意力运算。单个实例内部所有特征Token能够查询全场景全部实例的特征信息（包含自身），以此建模物体交互与空间依赖。

Q： f i f^i fi是前面的符合特征吗？

A： f i \boldsymbol{f^i} fi：DiT网络中间层输出的单实例几何特征（多实例注意力计算主体）

生成链路 z t i → D i T 嵌入 + T r a n s f o r m e r 特征变换 f i \boldsymbol{z_t^i \xrightarrow{DiT嵌入+Transformer特征变换} f^i} ztiDiT嵌入+Transformer特征变换 fi
z t i z_t^i zti输入全实例权重共享的DiT去噪模块 ，经过特征嵌入、多头映射后，输出当前层对应第 i i i个物体的中间特征 f i f^i fi。

f i f^i fi属性：只由3D隐变量变换而来，不含7通道复合图像的编码特征、不含像素信息；

全场景 N N N个实例生成特征集合： { f 1 , f 2 , . . . , f N } \{f^1,f^2,...,f^N\} {f1,f2,...,fN}。

源头：干净隐变量 z 0 i \boldsymbol{z_0^i} z0i z 0 i = E ( x i ) z_0^i=\mathcal{E}(x^i) z0i=E(xi) x i ∈ R L × 6 x^i\in\mathbb{R}^{L×6} xi∈RL×6：
3D-Front数据集原生标注真值 ，单个物体表面 L L L个采样点，每点6维：前3维 X / Y / Z X/Y/Z X/Y/Z空间坐标、后3维 n x / n y / n z n_x/n_y/n_z nx/ny/nz曲面法向；经过3D-VAE编码器 E \mathcal{E} E压缩，得到无噪声、仅存储单个物体几何形状 的隐编码 z 0 i z_0^i z0i。

关键： z 0 i z_0^i z0i只包含单体三维形状信息，不含任何2D图像、全局场景像素特征。
z t i z_t^i zti生成规则（整流流加噪公式） z t i = t z 0 i + ( 1 − t ) ϵ i , ϵ i ∼ N ( 0 , I ) , t ∈ $0 , 1$ z_{t}^{i}=t z_{0}^{i}+(1-t)\epsilon^{i},\quad \epsilon^i\sim \mathcal{N}(0,I),t\in $0,1$ zti=tz0i+(1−t)ϵi,ϵi∼N(0,I),t∈ $0,1$

t t t：时间步系数，全场景 N N N个实例共用同一个 t t t；

ϵ i \epsilon^i ϵi：服从正态分布的高斯随机噪声；

t = 1 t=1 t=1： z t i = ϵ i z_t^i=\epsilon^i zti=ϵi，完全随机噪声； t = 0 t=0 t=0： z t i = z 0 i z_t^i=z_0^i zti=z0i，原始干净几何隐码。

3. 训练/推理两种场景的 z t i z_t^i zti

训练阶段（有真实3D标注） ：依托数据集真值 z 0 i z_0^i z0i，人为叠加噪声构造 z t i z_t^i zti，送入DiT做去噪学习；

推理阶段（真实图片生成，无3D真值） ：不存在真实 z 0 i z_0^i z0i，生成起点全部用随机噪声 z t = 1 i = ϵ i z_{t=1}^i=\epsilon^i zt=1i=ϵi，经过50轮迭代去噪，逐步优化得到预测版 z 0 i z_0^i z0i，再由解码器 D D D还原三维网格。

核心： z t i z_t^i zti属于几何数据流 ，图像信息不会拼接、嵌入到 z t i z_t^i zti张量内部。
全流程串讲

训练：真实3D物体→ z 0 i z_0^i z0i→加噪变 z t i z_t^i zti→DiT生成 f i f^i fi→多实例注意力互通全物体特征、约束空间；2D原图拼成7通道图编码，走交叉注意力约束物体长相；

推理：随机噪声初始化 z t i z_t^i zti→迭代去噪，一边靠交叉注意力对齐原图样貌，一边靠 f i f^i fi的多实例注意力规范空间位置，最终解码输出完整3D场景。#
z t i z_t^i zti与 f i f^i fi完整精细化总结（严格对照MIDI原文架构，双数据流拆分）

图4 多实例注意力原理图

图4说明：原始单体自注意力仅允许单个物体内部Token做自查询；改进后的多实例注意力中，任意实例的Token均可访问场景内所有实例的全部Token特征。

4.3 模型训练

基于整流流架构，MIDI将基础模型单实例损失拓展为多实例损失。单次训练迭代中，全部实例 { z i } i = 1 N \{z^{i}\}_{i=1}^{N} {zi}i=1N共用同一个 t ∈ $0 , 1$ t\in $0,1$ t∈ $0,1$ 的噪声等级，沿线性路径加噪：

{ z t i } i = 1 N = t { z 0 i } i = 1 N + ( 1 − t ) { ϵ i } i = 1 N \left\{z_{t}^{i}\right\}{i=1}^{N}=t\left\{z{0}^{i}\right\}{i=1}^{N}+(1-t)\left\{\epsilon^{i}\right\}{i=1}^{N} {zti}i=1N=t{z0i}i=1N+(1−t){ϵi}i=1N

其中 ϵ i ∼ N ( 0 , I ) \epsilon^{i} \sim N(0,I) ϵi∼N(0,I)。采用下述损失函数微调去噪网络 ϵ θ \epsilon_{\theta} ϵθ与图像编码器 τ θ \tau_{\theta} τθ：

E { z i } i = 1 N , y , { ϵ i } i = 1 N , t $\sum i = 1 N ∥ z 0 i - ϵ i - ϵ θ ( z t i , t , τ θ ( y ) ) ∥ 2 2$ \mathbb{E}{\left\{z^{i}\right\}{i=1}^{N}, y,\left\{\epsilon^{i}\right\}_{i=1}^{N}, t}\left $\\sum_{i=1}\^{N}\\left\\\| z_{0}\^{i}-\\epsilon\^{i}-\\epsilon_{\\theta}\\left(z_{t}\^{i}, t, \\tau_{\\theta}(y)\\right)\\right\\\| _{2}\^{2}\\right$ E{zi}i=1N,y,{ϵi}i=1N,t $i=1\sumN z0i-ϵi-ϵθ(zti,t,τθ(y)) 22$

由于场景标注数据集规模远小于预训练所用单物体数据集，训练过程混入额外单物体数据集保证模型泛化性能：训练时有30%概率关闭多实例注意力，在Objaverse子集上以普通单图生成三维物体任务训练。

5 实验

5.1 实验设置

实现细节

本文基于自研整流流架构的单图转三维物体生成模型搭建MIDI，去噪Transformer网络包含21层注意力模块，网络架构参考现有三维物体生成方案。MIDI内图像编码器 τ θ \tau_{\theta} τθ使用DINO权重初始化，同时扩充输入投影层通道至7通道，用于拼接场景图、物体图与掩码组成的输入 y y y，输入图像分辨率固定为512。训练时采用低秩自适应（LoRA）高效微调预训练权重；多实例注意力层数 K K K设置为5。本文仅聚焦场景内实体物体与空间位置生成，地板、墙面等平面背景不在生成范围内，可通过现有配套方法补充生成。

数据集

训练数据采用3D-Front室内合成场景数据集，剔除物体穿插、悬空等不合理布局样本后，筛选得到约15000份高质量场景，随机选取1000组作为测试集。评测数据集包含四类主流基准：合成数据集（3D-Front测试集、BlendSwap）、真实场景数据集（Matterport3D、ScanNet）。为进一步验证泛化能力，额外使用SDXL文生扩散模型生成多风格场景图像作为测试素材。

对比基线

选取目前单图场景重建领域主流SOTA方法作为对比：前馈重建类PanoRecon、Total3D、InstPIFu、SSR；检索类DiffCAD；分步组合生成类Gen3DSR、REPARO。

评价指标

沿用领域通用评测方案：采用场景级倒角距离（Chamfer Distance）、阈值0.1下F分数衡量整体场景重建效果；物体级倒角距离与F分数用于单独评估单个物体几何保真度；物体包围盒体积交并比（Volume IoU）量化物体布局与空间位置精度；额外统计单场景平均生成耗时。

5.2 基于合成数据的场景生成

表1合成数据集（3D-Front、BlendSwap）定量对比结果，指标包含场景级倒角距离CD-S、场景F分数F-Score-S、物体级倒角距离CD-O、物体F分数F-Score-O、包围盒体积IoU-B，↓代表指标越低越好，↑代表指标越高越好，附带各方法单场景生成耗时。

定量结果如表1所示，在全部评测指标上MIDI均取得最优结果，推理耗时处于中等水平。依托预训练物体三维先验，在物体几何指标上本文方法大幅超越全部基线；得益于多实例扩散建模全局场景信息与物体空间约束，场景整体指标、物体排布IoU显著优于分步逐个生成的对比算法，生成场景几何完整、空间排布贴合真值。

图5 合成数据集（3D-Front、BlendSwap）定性可视化对比，从左至右依次为输入图像、PanoRecon、Total3D、InstPIFu、SSR、DiffCAD、Gen3DSR、REPARO、本文方法。

定性效果如图5：传统前馈重建方法生成几何失真、物体排布错乱；检索方案输出物体和原图匹配度不足；分步生成类方法在物体补全与单体生成阶段缺少全局约束，实例空间错位。MIDI凭借预训练先验与多实例注意力，物体几何精细、实例间空间关系准确。

5.3 基于真实图像的场景生成

在Matterport3D与ScanNet真实数据集开展实验，从两类测试集各挑选10组场景、每组选取一张原图作为输入。可视化对比见图6。本文可由真实照片生成高质量三维场景，几何完整度与位置准确度全面领先现有算法，验证多实例扩散在真实世界场景下优秀的泛化潜力。

图6 真实数据集（Matterport3D、ScanNet）定性对比图，排布规则同图5。

5.4 基于风格化图像的场景生成

采用SDXL文生模型生成多种艺术风格场景图片，仅与表现最优的REPARO开展对比，进一步测试域外泛化性能。由图8结果可见，面对多样化画风输入，MIDI依旧能够生成结构连贯、位置精准的三维场景，泛化优势突出。

图8 风格化图像生成对比，左侧为文本生成原图，中间REPARO结果，右侧本文MIDI结果；示例包含卡通卧室、写实轻奢客厅、温馨居家卧室三类场景。

5.5 消融实验

基于3D-Front数据集开展消融实验，验证三大关键模块有效性：1）多实例注意力层数 K K K；2）全局场景图像条件输入；3）混入Objaverse单物体数据集联合训练的作用。

无新增模块的基准模型

直接在场景数据集微调原始单物体生成模型，不引入多实例注意力与全局条件。该基线无法拆分生成独立多物体，物体空间关系建模失效，场景布局混乱。

表2 消融实验定量指标，变量为注意力层数#K、是否使用全局场景图(S.)、是否混入Objaverse数据集(O.)，指标包含CD-S、F-Score-S、CD-O、F-Score-O、IoU-B。

多实例注意力层数 K K K消融

分别测试 K = 0 、 K = 5 、 K = 21 K=0、K=5、K=21 K=0、K=5、K=21三种配置。 K = 0 K=0 K=0即去掉跨实例注意力，无法学习物体空间约束，场景排布杂乱，证明多实例注意力必不可少； K = 21 K=21 K=21时全部自注意力替换为多实例注意力，在小规模场景数据集上过拟合，破坏预训练几何先验、物体畸形失真； K = 5 K=5 K=5仅替换部分自注意力层，平衡跨实例交互建模与预训练先验保留，综合性能最优。

全局场景图像条件消融

移除全局场景图，仅依靠局部物体图像与掩码做条件输入。定量与可视化结果表明，缺失全局上下文后，物体摆放位置错误、整体空间逻辑崩坏。

混入单物体数据集训练消融

取消Objaverse正则化训练，模型在有限场景数据集上过拟合，单体物体几何质量大幅下降；混入单物体数据可保留原有物体生成能力，兼顾精细几何与合理实例空间关系。

图7 消融实验可视化对比：输入原图、无全部优化模块的基线模型、 K = 0 K=0 K=0、 K = 5 K=5 K=5、 K = 21 K=21 K=21、去掉全局场景图、去掉Objaverse混合训练。

6 结论

局限性与未来工作

如补充材料所示，MIDI在低分辨率输入图像、物体交互关系高度复杂的场景上生成效果欠佳。基于本文提出的多实例扩散框架，后续可从四个方向开展研究：

1）拓展模型能力，建模角色与物体交互等复杂场景互动（例如熊猫弹奏吉他），该方向需要配套专用数据集支撑；

2）引入显式三维几何先验，设计表达能力更强、运算效率更高的多实例注意力结构；

3）探究场景生成模型中隐式三维感知的内在机理；

4）扩展算法上限，支持单场景更多物体生成，落地至开放世界场景生成任务。

总结

本文提出MIDI创新框架，大幅推进单图生成组合三维场景领域的研究进展。该方法将预训练单物体图转三维生成模型拓展为多实例扩散架构，依托自研多实例注意力在生成过程中直接学习复杂物体交互与全局空间一致性，实现多实例同步生成，输出三维模型几何精细、空间排布精准。大量实验证实，MIDI生成效果达到业界最优，同时具备优异的跨场景泛化能力。

这篇论文提出了 MIDI（多实例扩散模型），针对现有单张图像生成组合式 3D 场景方法的核心痛点 ------ 前馈重建泛化性差、检索类方法依赖素材库且对齐精度不足、多阶段组合生成流程冗长且误差累积、单体生成缺失全局上下文导致物体布局错位需后置优化。

创新性地将预训练的单物体图像转 3D 生成模型拓展为多实例扩散架构，核心设计了多实例注意力机制，使每个 3D 实例的隐特征能在生成过程中跨实例交互，直接建模物体间空间关系，保证全局场景一致性，采用 7 通道复合图像编码通过交叉注意力融合全局场景与局部物体信息，并通过 30% 概率混入单物体数据集的混合训练策略，在小样本场景数据下保留预训练模型的单体生成能力与泛化性；

实验结果表明，MIDI 在合成数据集（3D-Front、BlendSwap）、真实场景数据集（Matterport3D、ScanNet）及风格化图像上均取得当前最优性能，场景级倒角距离、F 分数与物体包围盒 IoU 显著超越所有基线，单场景生成仅需 40 秒，且无需传统方法必需的后置布局优化，同时具备优秀的跨域泛化能力。

MIDI补充材料：面向单张图像生成三维场景的多实例扩散模型

7 研究背景：基础模型原理

参考现有规模化三维物体生成算法，首先训练变分自编码器（VAE）将三维几何信息压缩至低维隐空间。其中 x ∈ R L × 6 x \in \mathbb{R}^{L ×6} x∈RL×6代表 L L L个点的坐标与法向量信息，经由编码器映射得到隐变量 z = E ( x ) z=E(x) z=E(x)， z ∈ R l × c z \in \mathbb{R}^{l ×c} z∈Rl×c， l l l为压缩后Token序列长度。解码器 D D D由隐变量还原三维空间信息，回归符号距离函数SDF数值 s = D ( z ) s=D(z) s=D(z)。参照3DShape2Vecset方案，VAE由多层Transformer模块堆叠构成。

随后在压缩后的隐空间训练去噪网络 ϵ θ \epsilon_{\theta} ϵθ，将噪声 ϵ ∼ N ( 0 , I ) \epsilon \sim N(0,I) ϵ∼N(0,I)还原为真实三维数据分布。训练依托整流流模型架构，原始数据 z 0 z_0 z0沿线性路径添加噪声：

z t = t z 0 + ( 1 − t ) ϵ z_{t}=t z_{0}+(1-t) \epsilon zt=tz0+(1−t)ϵ

t = 1 , ⋯ , T t=1,\cdots,T t=1,⋯,T， T T T代表扩散总步数。实际训练采用对数正态采样策略，提升中间扩散步的损失权重。拥有21层残差连接注意力块的去噪网络 ϵ θ \epsilon_{\theta} ϵθ，通过最小化下述损失拟合分布变换的梯度：

E z , y , ϵ ∼ N ( 0 , I ) , t $∥ z 0 - ϵ - ϵ θ ( z t , t , τ θ ( y ) ) ∥ 2 2$ \mathbb{E}_{z, y, \epsilon \sim \mathcal{N}(0, I), t}\left $\\left\\\| z_{0}-\\epsilon-\\epsilon_{\\theta}\\left(z_{t}, t, \\tau_{\\theta}(y)\\right)\\right\\\| _{2}\^{2}\\right$ Ez,y,ϵ∼N(0,I),t $∥z0-ϵ-ϵθ(zt,t,τθ(y))∥22$

τ θ \tau_{\theta} τθ为图像编码器， y y y是条件输入图像，经由交叉注意力送入去噪Transformer。

8 实现细节

训练细节

MIDI训练时单次最多同步生成 N = 7 N=7 N=7个实例。该数值依据3D-FRONT数据集统计结果选定：数据集中多数场景包含5个及以内物体，超过5个物体的场景占比偏少。针对物体数量大于5的场景，采用聚类筛选5个代表性物体参与训练。训练过程以0.1的概率随机丢弃图像条件输入；沿用基础模型对数正态采样策略，强化中间扩散阶段的训练权重。训练超参：学习率 5 × 10 − 5 5×10^{-5} 5×10−5，迭代5个epoch，硬件环境为8张NVIDIA A100显卡。

推理细节

推理阶段先用Grounded-SAM对输入场景图像做实例分割，获取各物体掩码；随后采用无分类器引导的多实例扩散模型生成组合三维实例，提升场景保真度与连贯性。推理步数设置为50，引导系数7.0。在单张A100显卡上，完成一张图像到完整三维场景生成约耗时40秒。

9 补充讨论

MIDI与传统组合生成方法对比

图9 传统组合生成方案与本文多实例扩散方案架构细节对比：(a)传统分步生成：分割→图像补全→逐个三维生成→布局优化；(b)本文方案：输入图像送入多实例扩散模型，依托多实例注意力与全局场景上下文同步生成全部三维物体。

传统组合生成方案分步生成物体、后期优化空间布局，单体生成阶段缺失全局场景上下文，容易生成形态错误、位置失配的三维物体；若场景存在外形相似物体，优化阶段极易出现物体位置互换错乱。MIDI在同一个扩散模型内统一实现物体补全、三维建模与空间约束学习，一次性生成空间协调、结构准确的完整场景。

训练资源开销

表3 训练资源开销表（批次大小固定为1），记录不同实例数量 N N N对应的显存占用(GB)与迭代速度(iter/s)。

随着单批次生成实例数量 N N N提升，模型显存占用与单轮迭代耗时同步上升；即便 N = 7 N=7 N=7，硬件资源消耗依旧可控，证明MIDI具备良好可扩展性。

纹理生成方案

MIDI仅输出三维几何网格，如需带纹理场景，先用MIDI生成几何体，再借助MV-Adapter，以单个物体局部原图为输入逐一生成物体贴图。

图10 带纹理三维场景生成效果图，左右分别为输入原图与对应带纹理三维结果。

10 模型局限性

图11 模型失效案例展示。

MIDI所有实例统一在 $- 1 , 1$ $-1,1$ $-1,1$ 归一化全局坐标系中生成，导致小尺寸物体在全局空间中占比过小，相较于在独立归一化空间生成的单体模型，细小物体生成分辨率偏低。后续改进思路：让各物体在自身标准空间完成几何生成，再单独预测物体在场景中的坐标位置，保证大小物体均拥有充足生成分辨率。

现有公开场景数据集的物体交互样式较为简单，因此MIDI难以处理物体动态穿插、复杂耦合交互的场景。后续扩充包含多样化物体交互关系的标注数据集，可进一步提升模型对复杂空间互动场景的生成能力。