【3D场景生成】Controllable 3D Outdoor Scene Generation via Scene Graphs

标题：基于场景图的可控三维室外场景生成

原文链接：https://openaccess.thecvf.com/content/ICCV2025/papers/Liu_Controllable_3D_Outdoor_Scene_Generation_via_Scene_Graphs_ICCV_2025_paper.pdf

源码链接：https://yuheng.ink/project-page/control-3d-scene/

发表：ICCV-2025

图1场景图引导的三维室外场景生成。相较于文本描述与鸟瞰图，场景图为三维场景生成提供了更直观、更友好的用户控制形式。本文还开发了一套交互系统，允许用户通过场景图交互生成、编辑稠密三维场景。标注类别：地面、人行道、植被、车辆、行人、灯杆、道路、建筑物、护栏、其他杂物

摘要

三维场景生成是计算机视觉领域的重要研究方向，在自动驾驶、游戏开发与元宇宙等领域具有广泛应用价值。现有生成方法要么缺乏用户可控性，要么依赖不够精确、不符合直观认知的控制条件。本文提出一种以场景图 作为简易友好控制载体的三维室外场景生成方法。我们搭建了交互式系统，可将稀疏场景图转换为稠密鸟瞰图嵌入图（BEV Embedding Map），并以此引导条件扩散模型生成与场景图描述高度匹配的三维场景。推理阶段，用户可便捷创建或编辑场景图，实现大规模室外场景的生成。本文构建了包含成对场景图与三维语义场景的大规模数据集，用于鸟瞰图嵌入模块与扩散模型的训练。实验结果表明，该方法能够稳定生成高质量三维城市场景，且生成结果与输入场景图高度契合。据我们所知，本文是首个基于场景图条件实现大规模三维室外场景生成的研究工作。

1 引言

三维场景生成凭借其构建真实、物理自洽三维场景的能力，受到了学术界的广泛关注。这类模型为理解与仿真复杂现实三维世界提供了强有力的技术途径。在各类三维场景生成方法中，概率生成模型近年来取得了长足进展。然而，该类模型的随机性导致生成过程难以被精确控制，因此亟需研发可编辑、可调控的场景生成方案。

为实现可控场景生成，诸多研究借鉴二维条件生成的前沿成果，例如 DALL-E $3$ 与 Stable Diffusion $40$ 等模型均可依据自然语言生成高清图像。受此类模型启发，部分研究工作 $28,31,32$ 利用二维视图引导三维内容生成。但这类方法以物体为核心，受限于大尺度、强关联结构的特点，难以适配复杂室外场景的生成任务。另有研究直接采用文本条件控制三维场景生成，例如 Text2LiDAR $48$ 。然而，文本驱动的三维生成存在物理约束与空间细节把控不足的缺陷：无法有效遵循现实世界物理规则，也难以精确管控场景元素（如物体数量），最终生成结果往往无法满足指定约束要求 $63$ 。

一种可行思路是将现有三维室内场景生成方法 $15,46,58,60,61$ 迁移至室外场景，但这种迁移改造面临极大挑战。室内场景生成通常依托多视角图像合成有边界、带纹理的表面，重点建模物体外观与空间位置关系。与之不同，室外场景无边界约束，且大多通过无纹理的激光雷达点云采集，研究重点在于大尺度空间布局建模与背景连续性建模。

当下室外场景生成研究，正探索适用于三维室外场景生成的专属可控方式。例如，文献 $9,62$ 依托鸟瞰布局图或语义地图实现控制，但这类方法要求用户提供像素级控制信号，在大规模、复杂3D室外场景下交互门槛极高。因此，为可控三维室外场景生成选取合适的控制载体至关重要。在此背景下，场景图凭借结构化、规则化、稀疏化的表征特性，成为理想选择，十分适配三维室外场景生成任务，可实现复杂布局的高效控制。同时，场景图表达直观，便于用户交互编辑。基于上述优势，本文提出一套以场景图为核心、由稀疏表征向稠密表征转换的三维室外场景生成框架。

但将场景图作为生成条件并非易事，其本身具备稀疏性与抽象性。为解决该问题，本文首先采用图神经网络（GNN） ，通过消息传递机制聚合场景图的全局与局部信息；随后设计一种全新的分配模块，为图节点分配空间位置，生成鸟瞰图嵌入图（BEM）；最后将鸟瞰图嵌入图作为条件，输入三维金字塔离散扩散模型 $34$ ，生成完整的三维室外场景。本文对图神经网络与扩散模型进行联合训练，实现模块间深度适配。

为增强图神经网络对场景的理解能力，本文引入边重构 与节点分类两项辅助任务，进一步提升模型对场景图的解析与表征能力。此外，本文开发了一套交互式系统，支持场景图的可视化构建与编辑；用户既可手动编辑场景图，也可通过文本指令由大语言模型自动生成场景图，打通了文本输入与三维室外场景生成之间的壁垒。为支撑所提方法的训练，本文基于 CarlaSC 数据集 $47$ 为每一个三维场景构建对应的场景图数据集，定义节点属性并依据空间关系建立节点间连边。

本文的主要贡献总结如下：

据我们所知，本文首次实现以场景图为条件的大规模三维室外场景生成任务。
提出融合新型分配模块的图神经网络架构，将稀疏场景图转换为紧凑的场景嵌入特征，进而作为扩散模型的条件输入，完成三维场景生成。
构建包含三维场景与对应场景图配对的大规模数据集。大量实验表明，本文方法生成的三维室外场景能够严格匹配场景图的语义与结构定义。
开发并开源了简易易用的场景图交互式构建系统，用户可按需自定义场景图，引导三维室外场景生成。

2 相关工作

2.1 基于扩散模型的三维生成

扩散模型的应用已从二维图像合成拓展至复杂三维数据建模领域 $8$ 。相较于传统生成对抗网络（GAN） $13$ 与变分自编码器（VAE） $19$ ，扩散模型通过渐进式去噪机制具备更优性能，不仅提升了训练稳定性，还具备对复杂分布的建模能力，因此非常适用于三维数据生成任务。

现有相关研究主要聚焦于物体级生成 $33,38,39,49,52,54$ 与室内场景生成 $4,11,41,57$ 。而面向室外场景生成的少量研究工作 $21,22,29,34,50$ 大多优先保障视觉真实度，忽略了生成过程的可控性。本文旨在构建一套面向三维室外场景生成的框架，兼顾简易、精准的用户可控性。

2.2 场景图应用

场景图是对场景的结构化表征，编码了场景中的物体、物体属性以及实体间的关联关系 $17$ 。相较于点云 $23,24,37$ 、网格 $5$ 等稠密表征形式，场景图能够以简洁且全面的方式刻画场景结构，是生成任务中极具价值的条件先验。

通过显ly建模物体间的关联关系，场景图提供了一种结构化的场景控制方式，可支撑人工驱动与人工智能驱动的内容生成。该特性已在二维视觉任务中得到广泛研究与应用 $6,12,18,30,53,55,56,64$ 。

将场景图概念拓展至三维领域后，Armeni 等人 $1$ 提出了三维室内场景图。该框架将语义、空间与几何信息融合为层级化图结构：节点代表物体、房间与空间区域，边用于编码空间关联和语义关联。尽管该表征形式已被验证可有效应用于室内场景，但面向室外场景的同类型建模范式仍鲜有探索。

2.3 可控三维场景生成

迄今为止，可控三维室外场景生成方向的研究仍较为有限。与本文最相近的研究为 Text2LiDAR $48$ ，该工作基于文本输入生成激光雷达点云。文本控制虽是一种有益尝试，但缺乏显式的空间结构约束，难以实现精细的场景布局编排 $63$ 。

与之相比，场景图具备更强的可解释性与结构化约束能力，该优势已在三维室内场景生成领域得到验证 $25,27,41,45,66$ 。但将场景图适配于室外场景生成存在较大难点：室外场景尺度无边界、场景内物体类别丰富多样 $51$ 。

室内场景生成通常采用组合式思路，在预定义或生成的包围盒中放置物体 $10,36,44,60,61$ ；而室外场景存在复杂背景与非完整结构（如道路、建筑），无法直接套用该范式。针对以上挑战，本文设计了专为可控三维室外场景生成定制的流水线与场景图表征方案。

图2 场景图引导的三维场景生成整体框架。场景图引导的三维生成框架包含三大核心模块：交互式系统（红色区域）、BEV嵌入图处理模块（蓝色区域）以及扩散生成模块（底部区域）。用户可通过交互式系统，借助可视化交互界面或文本交互两种方式自定义构建场景图。所构建的场景图输入图神经网络（GNN）进行特征处理；该图神经网络与扩散模型借助辅助任务开展联合训练，以提升生成可控性。随后，场景图中的每个节点经由分配模块完成空间位置映射，生成鸟瞰图嵌入图（BEM）。该鸟瞰图嵌入图将作为条件输入送入三维金字塔离散扩散模型 $34$ ，最终生成完整的三维室外场景。注：Recon、Classification、CANE 分别指代边重构（Edge Reconstruction）、节点分类（Node Classification）与上下文感知节点嵌入（Context-aware Node Embedding）。

3 方法

本章首先在3.1节给出场景图的形式化定义；3.2节介绍以场景图为条件生成三维室外场景的完整流程；3.3节阐述本文方法如何支持便捷的三维场景自定义构建。

3.1 场景图定义

从形式化角度，场景图由节点与边共同表征，记为 G = ( V , E ) G=(V, E) G=(V,E)。

节点集合 V V V 分为两类，即 V = V I ∪ V R V=V_I \cup V_R V=VI∪VR：

a) 实例节点 V I V_I VI ：代表可计数实体对象，实体类别采用文献 $47$ 定义的标准标签，如车辆、行人等。每个实例节点 v i ∈ V I v_i \in V_I vi∈VI 关联特征向量 $c i ; p i$ $c_i; p_i$ $ci;pi$ ，其中 c i ∈ R d c_i \in \mathbb{R}^d ci∈Rd 为 d d d 维节点属性特征， p i ∈ R 2 p_i \in \mathbb{R}^2 pi∈R2 表示该节点在鸟瞰图坐标系下的中心二维坐标。

b) 场景道路节点 V R V_R VR ：仅用单个节点统一刻画道路结构与场景全局背景信息，满足 V R = { v r } V_R=\{v_r\} VR={vr}。

本文定义两类边集合 E E E 以刻画场景核心关联关系：

a) 空间邻近关系 ：对任意两个实例节点 v i , v j ∈ V I v_i,v_j \in V_I vi,vj∈VI，若二者欧式距离 d i j = ∥ p i − p j ∥ d_{ij}=\|p_i-p_j\| dij=∥pi−pj∥ 小于阈值 δ d \delta_d δd，则在两节点间构建边 e i j ∈ E e_{ij} \in E eij∈E。

b) 道路连通关系 ：任意实例节点 v i ∈ V I v_i \in V_I vi∈VI 与唯一道路节点 v r ∈ V R v_r \in V_R vr∈VR 之间构建边 e i r ∈ E e_{ir} \in E eir∈E，表征该实体隶属于道路结构。

在实际应用中，为降低用户交互难度，采用简化版场景图作为控制信号：每个实例节点仅保留语义标签 c i c_i ci 以及以分块索引表示的粗略二维位置 p i p_i pi；道路节点则仅用道路类型进行表征。

3.2 场景图引导的扩散生成

给定二维场景图，本文方法目标是生成与场景图结构描述对齐的三维语义场景。整体流程如下：首先通过图神经网络将场景图转换为稠密二维嵌入特征；随后训练以场景图嵌入为条件的二维扩散模型，生成合理的二维场景语义图；最后以生成的二维语义图为条件，通过条件三维扩散模型输出最终三维室外场景。

场景图图神经网络

场景图图神经网络（图2(b)）的目标是生成场景图节点嵌入，同时捕捉局部结构信息与全局上下文信息。本文采用图注意力网络（GAT） $43$ 作为GNN基础骨干。

给定图 G = ( V , E ) G=(V,E) G=(V,E)，邻接矩阵 A ∈ R ∣ V ∣ × ∣ V ∣ A \in \mathbb{R}^{|V|\times|V|} A∈R∣V∣×∣V∣ 编码节点间连通关系；基于两层GAT为图中每个节点 v i v_i vi 计算初始节点嵌入。为将全局上下文融入节点表征，将单个节点嵌入与全局池化特征 h G h_G hG 拼接，经多层感知机映射得到最终嵌入：
h i C A N E = M L P ( $h i ; h G$ ) , h G = P o o l i n g ( { h i ∣ v i ∈ V } ) (1) h_i^{CANE}=MLP\left(\left $h_i ; h_G\\right$ \right),\ h_G=Pooling\left(\left\{h_i | v_i \in \mathcal{V}\right\}\right) \tag{1} hiCANE=MLP( $hi;hG$ ), hG=Pooling({hi∣vi∈V})(1)

其中 $\cdot ; \cdot$ $\\cdot;\\cdot$ $\cdot;\cdot$ 代表特征拼接操作， P o o l i n g ( ⋅ ) Pooling(\cdot) Pooling(⋅) 为图全局均值池化 $35$ ， h G ∈ R 64 h_G \in \mathbb{R}^{64} hG∈R64， M L P ( ⋅ ) MLP(\cdot) MLP(⋅) 为多层感知器。本文将该输出嵌入命名为上下文感知节点嵌入（CANE）。

GNN 同时接受辅助任务 与下游生成任务 联合监督（图2(d)(e)）。辅助任务沿用图自编码器（GAE） $20$ 的边重构损失与节点分类损失，定义为：
L a = B C E ( A ^ , A ) + 1 ∣ V ∣ ∑ i = 1 ∣ V ∣ C E ( y i , y ^ i ) (2) \mathcal{L}{a}=BCE(\hat{A}, A)+\frac{1}{|\mathcal{V}|} \sum{i=1}^{|\mathcal{V}|} CE\left(y_{i}, \hat{y}_{i}\right) \tag{2} La=BCE(A^,A)+∣V∣1i=1∑∣V∣CE(yi,y^i)(2)

其中 BCE 为二元交叉熵，CE 为节点级交叉熵损失。预测结果定义为：
A ^ = σ ( h G h G ⊤ ) , y ^ i = S o f t m a x ( M L P ( h i C A N E ) ) (3) \hat{A}=\sigma\left(h_{G} h_{G}^{\top}\right),\quad \hat{y}{i}=Softmax\left(MLP\left(h{i}^{CANE}\right)\right) \tag{3} A^=σ(hGhG⊤),y^i=Softmax(MLP(hiCANE))(3)
σ ( ⋅ ) \sigma(\cdot) σ(⋅) 代表Sigmoid激活函数。式(2)第一项用于重构场景全局拓扑结构（邻接矩阵 A A A）；第二项将每个节点 v i v_i vi 分类至对应真实语义类别。两项辅助任务迫使网络同时学习场景图拓扑结构与节点专属特征，使CANE嵌入能够有效编码局部与全局信息。

在下游任务中，节点CANE嵌入输入分配模块，求解鸟瞰图嵌入图（BEM），作为后续扩散模型的条件输入。分配模块定义为：
L = ∑ i = 1 ∣ V ∣ M ( p ^ i ) ⊙ h i C A N E (4) L=\sum_{i=1}^{|\mathcal{V}|} \mathcal{M}\left(\hat{p}{i}\right) \odot h{i}^{CANE} \tag{4} L=i=1∑∣V∣M(p^i)⊙hiCANE(4)

其中输出 BEM 特征图 L ∈ R H b × W b × C L \in \mathbb{R}^{H_b \times W_b \times C} L∈RHb×Wb×C， H b 、 W b H_b、W_b Hb、Wb 为鸟瞰图高宽， C C C 为通道维度。二值掩码图 M ( p ^ i ) ∈ { 0 , 1 } H b × W b \mathcal{M}(\hat{p}_i) \in \{0,1\}^{H_b\times W_b} M(p^i)∈{0,1}Hb×Wb 沿通道维度扩展至 R H b × W b × C \mathbb{R}^{H_b\times W_b\times C} RHb×Wb×C，与节点嵌入 h i C A N E ∈ R C h_i^{CANE} \in \mathbb{R}^C hiCANE∈RC 逐元素相乘。

推理阶段，基于MLP定位头采样预测节点位置：
p ^ i ∼ G u m b e l S o f t m a x τ ( H e a d ( h i C A N E ) ) (5) \hat{p}_{i} \sim GumbelSoftmax {\tau}\left(Head\left(h{i}^{CANE}\right)\right) \tag{5} p^i∼GumbelSoftmaxτ(Head(hiCANE))(5)

其中 τ \tau τ 为Gumbel Softmax温度系数。扩散模型训练阶段，使用真实位置 p i p_i pi 替代预测位置 p ^ i \hat{p}_i p^i。定位头在扩散模型训练完成后进行后置训练。

分配模块核心作用：将不规则、稀疏的图结构表征，转换为规则稠密的二维鸟瞰特征图BEM，适配后续二维扩散模型输入要求。

二维地图离散扩散（图2(f)）

同一场景图可对应多种合理的二维布局，为建模这种多样性，本文采用离散扩散模型，将稀疏场景图嵌入细化为稠密二维语义地图。

形式上，二维地图扩散将稀疏BEM特征 L L L 生成稠密离散语义图 X ∈ { 0 , 1 } H b × W b × c X \in \{0,1\}^{H_b\times W_b\times c} X∈{0,1}Hb×Wb×c，其中 c c c 为语义类别总数。本文采用标准离散扩散框架 $2$ 实现二维地图生成。

前向扩散过程中，真实二维地图 X 0 X_0 X0 在 T T T 个时间步内通过转移矩阵 Q t Q_t Qt 逐步加噪退化，满足 X t = X t − 1 Q t X_t=X_{t-1}Q_t Xt=Xt−1Qt。引入累积转移矩阵 Q → t \overrightarrow{Q}t Q t，可直接从原图 X 0 X_0 X0 采样得到带噪图 X t X_t Xt：
q ( X t ∣ X 0 ) = C a t ( X t ; P = X 0 Q ‾ t ) (6) q\left(X{t} | X_{0}\right)=Cat\left(X_{t} ; P=X_{0} \overline{Q}_{t}\right) \tag{6} q(Xt∣X0)=Cat(Xt;P=X0Qt)(6)

其中 C a t ( ⋅ ) Cat(\cdot) Cat(⋅) 表示分类分布。

反向去噪阶段，模型 p θ p_\theta pθ 学习逆去噪过程，以带噪图 X t X_t Xt 与条件BEM特征 L L L 为输入，预测上一时刻更干净的地图 X t − 1 X_{t-1} Xt−1：
p θ ( X t − 1 ∣ X t , L ) = E p ~ θ ( X ‾ 0 ∣ X t , L ) q ( X t − 1 ∣ X t , X ‾ 0 ) (7) p_{\theta}\left(X_{t-1} | X_{t}, L\right)=\mathbb{E}{\tilde{p}{\theta}\left(\overline{X}{0} | X{t}, L\right)} q\left(X_{t-1} | X_{t}, \overline{X}_{0}\right) \tag{7} pθ(Xt−1∣Xt,L)=Ep~θ(X0∣Xt,L)q(Xt−1∣Xt,X0)(7)

模型通过最小化前向过程与学习到的反向过程之间的KL散度进行训练，损失函数 L θ \mathcal{L}_\theta Lθ 定义为：

其中 λ \lambda λ 为权重系数，用于平衡重构辅助项。推理时，模型从随机离散噪声出发，在BEM特征 L L L 引导下通过反向扩散生成稠密完整二维语义地图 X 0 X_0 X0，为后续三维场景生成提供完备空间布局先验。

本文联合训练GNN与二维地图扩散模型，总损失为 L a + L θ \mathcal{L}a+\mathcal{L}\theta La+Lθ。

三维场景离散扩散（图2(g)）

基于生成的二维语义地图，采用与二维离散扩散对称的流程生成稠密三维场景。

将上一阶段输出的二维地图 X 0 ∈ { 0 , 1 } H d × W d × c X_0 \in \{0,1\}^{H_d\times W_d\times c} X0∈{0,1}Hd×Wd×c 作为条件，引导三维场景生成。定义三维场景体素表征为 Z ∈ { 0 , 1 } H × W × D × c Z \in \{0,1\}^{H\times W\times D\times c} Z∈{0,1}H×W×D×c，其中 H 、 W H、W H、W 为三维场景平面尺寸， D D D 为高度维度， c c c 为语义类别数。

三维扩散沿用与二维扩散一致的前向、反向流程，仅将运算拓展至三维体素网格。可学习模型 p ϕ p_\phi pϕ 以当前带噪体素 Z t Z_t Zt 与上采样后的二维地图 X 0 X_0 X0 为条件，预测去噪后的体素状态 Z t − 1 Z_{t-1} Zt−1：
p ϕ ( Z t − 1 ∣ Z t , X 0 ) = E p ‾ θ ( z ‾ 0 ∣ Z t , f ( X 0 ) ) q ( Z t − 1 ∣ Z t , Z ‾ 0 ) (9) p_{\phi}\left(Z_{t-1} | Z_{t}, X_{0}\right)=\mathbb{E}{\overline{p}{\theta}\left(\overline{z}{0} | Z{t}, f\left(X_{0}\right)\right)} q\left(Z_{t-1} | Z_{t}, \overline{Z}_{0}\right) \tag{9} pϕ(Zt−1∣Zt,X0)=Epθ(z0∣Zt,f(X0))q(Zt−1∣Zt,Z0)(9)

其中 f : R H d × W d × c → R H × W × c f: \mathbb{R}^{H_d \times W_d \times c} \to \mathbb{R}^{H \times W \times c} f:RHd×Wd×c→RH×W×c 为上采样函数。

三维扩散训练损失 L ϕ \mathcal{L}\phi Lϕ 与二维损失形式一致：
L ϕ = d K L ( q ( Z t − 1 ∣ Z t , Z 0 ) ∥ p ϕ ( Z t − 1 ∣ Z t , X 0 ) ) + λ d K L ( q ( Z 0 ) ∥ p ~ ϕ ( Z ~ 0 ∣ Z t , X 0 ) ) . (10) \begin{aligned} \mathcal{L}{\phi}= & d_{KL}\left(q\left(Z_{t-1} | Z_{t}, Z_{0}\right) \| p_{\phi}\left(Z_{t-1} | Z_{t}, X_{0}\right)\right) \\ & +\lambda d_{KL}\left(q\left(Z_{0}\right)\left\| \tilde{p}{\phi}\left(\tilde{Z}{0} | Z_{t}, X_{0}\right)\right) .\right. \end{aligned} \tag{10} Lϕ=dKL(q(Zt−1∣Zt,Z0)∥pϕ(Zt−1∣Zt,X0))+λdKL(q(Z0) p~ϕ(Z~0∣Zt,X0)).(10)

推理阶段，网络从随机三维噪声状态 Z T Z_T ZT 开始，以二维地图 X 0 X_0 X0 为条件执行反向扩散迭代，最终输出精细三维场景 Z 0 Z_0 Z0，生成结果严格对齐二维地图的空间布局与语义结构。

图3 场景图生成。大语言模型（LLM）将用户的文本提示转换为场景图，再由该场景图引导三维场景生成。

3.3 交互式系统

本文搭建面向用户的交互式控制系统，核心以用户主导的场景图编辑与生成为核心。系统内置图形交互界面，用户可通过节点新增、删除、位置调整等直观操作，精准构建与修改场景图，实现细粒度的场景生成控制。

此外，用户可输入自然语言提示，由大语言模型解析文本并自动生成对应场景图（图3），再以生成的场景图为输入，驱动模型输出最终三维室外场景。系统提示词的详细设计见补充材料。

4 实验结果

4.1 数据准备

现有公开三维室外激光雷达场景缺少配对的场景图标注数据，因此本文基于CarlaSC数据集 $47$ 中的每一个三维语义场景，自行构建对应的场景图数据集，并命名为CarlaSG。按照3.1节的场景图定义规则，从CarlaSC数据集中的每个三维语义地图中提取三维场景图，并投影至二维鸟瞰平面。

图1为三维室外场景及其对应场景图示例。考虑到地面、人行道的空间分布与道路布局高度重合，本文将CarlaSC原始数据集中的地面、人行道 类别合并至道路类别统一标注。同时进一步将道路划分为五类：直道、T型路口、十字路口、弯道道路、其他道路。相关数据处理细节见论文补充材料。

4.2 评估指标与评测方案

本文从两大维度开展评测：生成场景的整体质量、生成结果与输入场景图的匹配对齐程度。同时开展用户主观调研，从感知层面评估生成场景与场景图的一致性。所有实验均在随机选取的1000张测试场景图上完成。评估指标与用户调研细节详见补充材料。

场景质量评估

本文沿用文献 $34$ 的评测方案衡量生成场景质量。采用**平均交并比（mIoU）与平均准确率（MA）评估语义合理性；同时引入三维弗雷歇距离（F3D）**衡量特征相似度，该指标在预训练三维CNN自编码器的特征空间中，计算生成场景与真实场景间的弗雷歇距离。

可控性评估

采用平均绝对误差（MAE）与雅卡尔指数（Jaccard Index），评估生成场景中物体数量与场景图节点数量的匹配度。MAE用于量化物体数量的数值偏差；雅卡尔指数衡量物体类别的重叠程度，反映生成场景与场景图结构的匹配程度。

用户主观调研

采用**差分平均主观评分（DMOS）**这一主流主观评分方法，从物体数量、位置分布、道路类型三个维度，评价生成场景与输入场景图的对齐效果。

4.3 实验设置

训练与推理配置

联合训练2D扩散模型与GNN过程中，引入数据增广，并向扩散模型输入10%无条件数据；同时对GNN输入施加30%特征掩码，用于模拟用户未给出部分节点位置信息的真实场景。推理阶段，设置分配模块中Gumbel Softmax温度系数 τ = 2.0 \tau=2.0 τ=2.0，为生成结果引入多样性。学习率、批次大小等其余训练超参数详见补充材料。

网络结构

本文采用扩散模型与GNN联合训练架构：2D/3D扩散模型均以3D-UNet $7$ 为骨干网络，该网络已被广泛应用于室外场景理解任务；GNN采用**两层图注意力网络（GAT）**编码器 $43$ 。

对比基线模型

由于室内场景生成方法与室外场景存在本质差异，直接迁移会大幅改动原始网络结构，对比意义有限。因此本文选取三类基线方法进行对比：

(1) 大语言模型（LLM） $59,65$ ：对场景图文本描述提取特征嵌入，通过二维反卷积对齐维度后送入下游2D扩散模型，具体实现细节见补充材料；

(2) 场景图生成图像方法（SG2Im） $18$ ：基于GAN的场景图到图像生成方法，本文对其进行适配改造，用于从场景图生成BEM特征图；

(3) 无条件生成模型（Uncon-Gen） $34$ ：不引入场景图条件的纯三维场景生成模型。

4.4 实验主要结果

图4 基于场景图的三维室外场景生成可控性对比。对比基线方法可见，本文生成场景与输入场景图高度一致，而SG2Im与LLM方法在物体数量、道路类型上均存在明显不一致问题。

定性结果

图4展示了本文方法与基线方法基于三组不同场景图生成的三维室外场景可视化对比。结果表明：本文方法能够精准复现场景图指定的物体数量与道路类型信息；而LLM与SG2Im基线生成的场景，大部分类别物体数量存在明显偏差，生成的道路类型也与预期结构差异显著。

定量结果

表1为不同条件生成方法在各项指标上的定量对比。

场景质量维度：无条件生成、LLM与本文方法性能相近，SG2Im方法表现落后。

可控性维度：本文方法在所有指标上均显著优于基线，MAE低于1.0，实现了对物体数量的精准控制；SG2Im的MAE为0.97，LLM基线MAE高达1.44，误差约为本文方法的两倍，精度差距明显。同时本文方法取得更高的雅卡尔指数，说明能够更好匹配多类场景图的物体类别分布。

表1 三维室外场景生成不同条件方法对比。Uncon-Gen、SG2Im、LLM分别代表无条件生成、场景图转图像、大语言模型；M-Pole、M-Pede、M-Vech分别代表灯杆、行人、车辆类别的单独MAE。场景质量评估中，mIoU与MA越高代表语义一致性越好，F3D越低代表与真实数据集特征对齐程度越高。可控性评估中，MAE越低代表生成物体数量与场景图定义数量偏差越小；雅卡尔指数越高代表生成场景与场景图物体类别匹配度越高。

图5 生成多样性效果。在同一输入场景图约束下，本文方法可生成多个存在差异但结构一致的室外场景。

生成多样性验证

为验证本文方法并非单纯记忆场景图、具备生成多样性，采用同一张场景图重复生成三次场景，结果如图5所示。可以看出：相同输入场景图下，模型能够生成风格各异但结构、语义均符合约束的三维场景，证明方法可在保持与场景图对齐的同时，引入合理的生成随机性。

4.5 消融实验与用户研究

无条件数据占比消融

本文探究了扩散训练中无条件数据占比对生成效果的影响。实验结果表明：随着无条件数据比例提升，场景质量（mIoU、MA）逐步提升，在比例达到0.1后增长趋于瓶颈；继续增大比例虽小幅提升场景质量，但会造成可控性指标（雅卡尔指数、MAE）显著下降。为平衡生成质量与可控性，本文最终选取0.1作为无条件数据占比。

GNN辅助任务消融

本文对比了是否加入边重构、节点分类两项GNN辅助任务的性能差异，结果如表2所示。同时启用两项辅助任务时性能最优，MAE低至0.63、雅卡尔指数高达0.93；缺失任意一项均会造成性能明显下降，尤其雅卡尔指数衰减显著；两项任务全部移除后性能进一步下滑。这证明两项辅助任务均能有效提升生成场景与场景图的对齐精度。

表2 辅助任务对生成性能的影响。对比是否启用边重构、节点分类任务下的MAE与雅卡尔指数，同时启用两项任务时场景图对齐效果最优。

不同训练策略消融

本文探究了四种不同模块训练策略：

(a) 预训练扩散模型、GNN与定位头，随后冻结GNN与定位头，微调扩散模型；

(b) 所有模块从零开始端到端全量训练；

(d) 从零联合训练扩散模型与GNN，训练完成后冻结GNN，后置训练定位头。

定量结果如表3、可视化对比如图6所示，策略(d)性能最优。策略(a)©存在语义不一致问题；策略(b)生成场景质量尚可，但物体数量、道路类型与场景图匹配度较差。联合训练扩散模型与GNN，可让扩散模型同步学习场景结构与编码特征；后置训练定位头能够在不破坏已有结构关系的前提下，精准分配物体位置，最终实现语义合理性与数量可控性的平衡。

图6。不同训练策略的生成效果对比。第二、第四类训练策略易出现车辆位于人行道、物体重叠、数量不匹配等问题；第三类策略语义合理，但难以精准匹配物体数量与道路类型；第一类策略可生成高质量且与场景图高度对齐的场景，因此选为最终训练方案。

表3 本文不同训练策略定量对比。加粗行为本文最终采用的训练策略。

用户主观调研

本文生成100组场景对，邀请20名受试者从物体数量、位置精度、道路类型匹配度三个维度打分。最终DMOS评分结果如图8所示，本文方法显著优于两类基线。同时对三类方法的主观分数进行单尾配对t检验，原假设为"本文生成方法评分不高于基线"，检验结果在 p < 10 − 3 p<10^{-3} p<10−3 显著性水平下拒绝原假设，从统计学角度证明本文方法性能显著优于基线模型。

图8 用户研究DMOS评分对比：本文方法与随机生成、LLM方法的主观评分差异，本文方法与场景图规范高度契合。

5 结论

本文提出了一套融合交互式系统、鸟瞰图嵌入图与扩散生成模型的完整解决方案，实现了可控三维室外场景生成任务。室外场景存在景观结构复杂、信息维度丰富、结构样式多样等固有难点。本文方法利用场景图完成从稀疏表征到稠密表征的转换建模，并结合交互式操作系统，支持用户以直观简洁的方式生成自定义三维室外场景。

对比实验结果表明，本文所提方法能够精准控制场景内物体数量与空间布局，生成结果与输入场景图高度匹配。各项实验验证证明，该方案是实现可控三维室外场景生成的一种稳健且有效的技术途径。

思考

标注："部分研究工作 $28,31,32$ 利用二维视图引导三维内容生成。但这类方法以物体为核心 ，受限于大尺度、强关联结构的特点，难以适配复杂室外场景的生成任务。另有研究直接采用文本条件控制三维场景生成，例如 Text2LiDAR $48$ 。然而，文本驱动的三维生成存在物理约束与空间细节把控不足的缺陷：无法有效遵循现实世界物理规则，也难以精确管控场景元素（如物体数量），最终生成结果往往无法满足指定约束要求 $63$ 。"
理解：展示现有方法利用二维图像和文本生成三维场景的局限性，引出场景图作为输入的优势。
对于户外场景而言，二维视图是「拍照视角的外观图」，天生缺全局空间结构，撑不起室外大场景。