【AI论文】BlenderFusion：基于三维场景的视觉编辑与生成式合成

摘要：我们提出BlenderFusion ，一种生成式视觉合成框架，通过重新组合物体、相机和背景来生成全新场景。该框架遵循分层-编辑-合成 的流程：（i）将视觉输入分割并转换为可编辑的3D实体（分层）；（ii）在Blender中基于三维空间信息进行编辑（编辑）；（iii）利用生成式合成器将各元素融合为连贯场景（合成）。我们的生成式合成器基于预训练扩散模型扩展而成，可并行处理原始（源）场景与编辑后（目标）场景。通过两种关键训练策略在视频帧上微调：（i）源场景掩码 ，支持背景替换等灵活修改；（ii）模拟物体抖动 ，实现物体与相机的解耦控制。实验表明，在复杂场景编辑任务中，BlenderFusion的性能显著优于现有方法。Huggingface链接：Paper page，论文链接：2506.17450

研究背景和目的

研究背景 ：

随着计算机视觉和生成模型技术的快速发展，视觉内容生成与编辑已成为人工智能领域的研究热点。传统的视觉编辑方法往往依赖于2D图像处理技术，这些方法在处理复杂场景时面临诸多挑战，如物体间遮挡、光照变化、视角不一致等。近年来，3D感知控制技术逐渐兴起，为视觉编辑提供了新的思路。通过引入3D信息，可以更精确地控制物体的位置、形状、光照等属性，从而实现更自然、更真实的视觉合成效果。然而，现有的3D感知控制方法多局限于单物体控制，且往往将视觉元素（物体、相机、背景）的控制纠缠在一起，导致复杂场景编辑的灵活性和精度受限。

研究目的 ：

本文旨在提出一种名为BlenderFusion的生成式视觉合成框架，该框架通过集成3D图形软件（如Blender）的精确编辑能力与扩散模型的强大生成能力，实现复杂场景下多物体的精细控制与高质量合成。具体而言，研究目标包括：

实现多物体的3D感知编辑：通过Blender的3D编辑功能，支持对场景中多个物体的独立或协同编辑，包括位置、旋转、缩放、属性修改等。
提升视觉合成的灵活性和精度：通过生成式合成器，将Blender编辑后的场景与原始场景进行融合，生成既保留原始场景信息又体现编辑意图的高质量图像。
解决复杂场景编辑中的挑战：通过引入源场景掩码和模拟物体抖动等训练策略，提升模型在处理遮挡、光照变化、视角不一致等复杂情况时的鲁棒性。

研究方法

1. 框架设计 ：

BlenderFusion框架遵循分层-编辑-合成的流程：

分层（Layering）：利用现成的视觉基础模型（如SAM2、Depth Pro）从输入图像中分割并提取物体，将其转换为可编辑的3D实体。这一步骤包括投影3D边界框到图像空间、细化2D边界框、提取物体掩码、计算深度信息并生成3D点云等。
编辑（Editing）：将提取的3D实体导入Blender，利用Blender的3D编辑功能对物体进行精确控制，包括基本变换（平移、旋转、缩放）、高级变换（属性修改、非刚性变换）、相机控制和背景替换等。
合成（Compositing）：使用生成式合成器将Blender编辑后的场景与原始场景进行融合。合成器基于预训练的扩散模型扩展而成，通过双流架构并行处理原始场景和编辑后的场景，并引入源场景掩码和模拟物体抖动等训练策略，提升合成的灵活性和精度。

2. 生成式合成器设计 ：

生成式合成器是BlenderFusion的核心组件，其设计包括以下关键点：

双流架构：合成器采用双流架构，分别处理原始场景和编辑后的场景。每个流包含一个共享权重的去噪UNet，通过自注意力机制实现信息交互。
条件输入：修改UNet的第一层以适应额外的条件输入，包括Blender渲染图像、物体索引掩码和相机参数等。
文本标记：使用CLIP嵌入对象类别标签和3D边界框的位置编码作为文本标记，为每个流提供额外的上下文信息。

3. 训练策略 ：

为了提升合成器的性能，本文提出了两种关键训练策略：

源场景掩码：在训练过程中随机掩码原始场景中的物体，防止模型过度依赖原始上下文信息，从而提升对编辑后场景的适应性。
模拟物体抖动：通过模拟物体在固定相机下的动态变化，丰富训练数据的多样性，提升模型对物体和相机的解耦控制能力。

研究结果

1. 定量评估 ：

在MOVi-E、Objectron和Waymo Open Dataset（WOD）三个数据集上的定量评估结果显示，BlenderFusion在物体级别和图像级别的指标上均显著优于基线方法（如3DIT和Neural Assets）。具体而言，BlenderFusion在PSNR、SSIM、LPIPS和DINO等指标上均取得了更高的分数，表明其在保持物体外观和几何细节的同时，能够更准确地捕捉光照和阴影等视觉效果。

2. 定性评估 ：

通过可视化比较，BlenderFusion在物体控制、背景替换、光照一致性等方面表现出色。例如，在物体旋转和缩放任务中，BlenderFusion能够保持物体的几何准确性和光照一致性，而基线方法往往会出现几何失真或光照不匹配的问题。此外，在多物体编辑和复杂场景合成任务中，BlenderFusion也展现出了更高的灵活性和精度。

3. 用户研究 ：

通过用户研究进一步验证了BlenderFusion的优势。在标准视频帧设置、解耦物体控制和复杂精细合成三种场景下，用户普遍认为BlenderFusion生成的图像质量更高、物体身份保持更好、控制更精确。特别是在复杂精细合成任务中，BlenderFusion的优势更加明显。

研究局限

尽管BlenderFusion在复杂场景编辑任务中取得了显著进展，但仍存在以下局限：

1. 数据依赖 ：

BlenderFusion的性能高度依赖于训练数据的质量和多样性。在现有数据集中，物体和相机的运动往往相互纠缠，导致模型在处理解耦控制任务时面临挑战。尽管通过模拟物体抖动等策略在一定程度上缓解了这一问题，但仍需要更多包含丰富物体和相机运动的数据集来进一步提升模型性能。

2. 计算资源需求 ：

BlenderFusion框架涉及多个复杂的组件和训练策略，对计算资源的需求较高。特别是在训练生成式合成器时，需要使用高性能GPU进行长时间训练。这在一定程度上限制了框架的广泛应用和快速迭代。

3. 特定场景下的性能退化 ：

在处理某些特定场景（如高度动态的物体运动、复杂的光照条件等）时，BlenderFusion的性能可能会出现退化。这可能是由于模型对复杂场景的建模能力有限，或者训练数据中缺乏相应的场景示例所致。

未来研究方向

针对BlenderFusion的局限性和潜在改进空间，未来研究可以从以下几个方面展开：

1. 丰富训练数据集 ：

构建包含更丰富物体和相机运动的数据集，特别是那些包含高度动态物体运动和复杂光照条件的数据集。这将有助于提升模型在处理解耦控制任务和复杂场景时的鲁棒性和泛化能力。

2. 优化计算资源利用 ：

探索更高效的训练策略和模型架构，以降低对计算资源的需求。例如，可以通过模型剪枝、量化等技术来减小模型规模，或者利用分布式训练等技术来加速训练过程。

3. 提升复杂场景建模能力 ：

研究更先进的场景建模方法，以提升模型在处理高度动态物体运动和复杂光照条件时的性能。例如，可以引入更复杂的3D表示方法（如神经辐射场NeRF）、更精确的光照估计技术等。

4. 探索跨模态生成与编辑 ：

将BlenderFusion框架扩展到跨模态生成与编辑任务中，如文本到3D场景的生成与编辑、语音驱动的视觉内容生成等。这将有助于拓展框架的应用范围，并推动视觉内容生成与编辑技术的发展。

5. 加强用户交互与反馈机制 ：

研究如何更好地集成用户交互与反馈机制，以提升视觉编辑的灵活性和易用性。例如，可以通过引入强化学习中的用户反馈机制来优化编辑过程，或者通过设计更直观的用户界面来降低编辑门槛。