扩散模型赋能3D 视觉的综述报告

近年来，3D 视觉成为计算机视觉领域的一个重要研究方向，推动了诸如具身智能、自动驾驶、虚拟现实（VR）、医学成像等课题的发展。3D 视觉研究的核心在于从2D 数据源中精准地感知、理解和重建3D 场景。扩散模型作为一种强大的深度生成模型，能够估计复杂的2D 数据分布，为真实世界中的3D 视觉研究提供了新思路。为此，本报告综述了使用扩散模型解决3D 视觉任务的SOTA 方法，主要包括：3D 内容生成与编辑等。报告的组织结构安排如下：首先，从得分匹配的视角简述扩散模型的数学原理；其次，介绍关于3D 视觉的基础知识，包括3D 视觉表征的基本形式与3D 视觉任务现存的主要挑战；然后，分别介绍扩散模型在3D 内容生成、编辑以及新视角合成中的应用与技术架构；最后，概述常用的3D 视觉数据集与质量评价指标，并总结全文。1 扩散模型的数学原理1.1 扩散模型的得分建模流程假设数据x 的概率密度函数为p(x)，则其对应的Stein 得分函数被定义为：

扩散模型sθ(x) 的目标就是最小化得分匹配损失以近似真实数据得分s(x)：式(7)表明：得分匹配与预测噪声近似等价，扩散模型本质就是去噪自编码器。在此基础上，根据Langevin动力学方程和马尔可夫链蒙特卡洛方法（MCMC），可进一步实现对估计的数据分布的迭代采样（假设数据服从任意的先验分布x0 π(x)，且t = 1, . . . , T）：

图1: 扩散模型的得分建模流程. (a) 表示得分匹配，其用于估计数据的Stein 得分，即梯度流. (b) 表示（退火）Langevin 动力学过程其通过MCMC 迭代地从估计的数据分布中采样.1.2 随机微分方程统一扩散模型

图2: 利用随机微分方程统一描述扩散模型的前向与反向过程.2 3D 视觉的基础知识2.1 3D 视觉数据的表征形式3D 数据表征是完成3D 视觉任务的基石，本综述报告按照表征形式的几何特性将其分为三类：2D 视觉表征、显式3D 表征以及隐式3D 表征。2.1.1 2D 视觉表征顾名思义，2D 视觉表征就是用2D 图像来表征3D 场景，优点是获取方式便捷，缺点是对图像的质量和数量有较高要求。典型的2D 视觉表征有：深度图（depth map）和多视图（multi-view images）。深度图是一种以2D 图像形式表示场景3D 信息的数据结构（Silberman et al. [2012]），其中每个像素值对应从特定视点（通常是相机）到场景中最近表面的距离。深度图可通过立体视觉（stereo vision）、结构光（structured light）或飞行时间（ToF）相机等技术获取，这些技术基于光或运动的几何原理来估计深度信息。深度图为3D 信息提供了一种高效的编码方式，可以便捷地与传统2D 图像处理技术集成。它在3D 重建、场景理解和机器人导航等需要理解场景空间布局的应用中发挥重要作用。此外，深度图可与RGB 图像结合形成RGB-D 数据集，同时包含色彩和深度信息，支持更全面的场景分析。然而，深度图存在固有局限性：它通常只能表示单一视点下物体的可见表面，而无法捕获被遮挡区域（即从相机视角被其他物体遮挡的部分），这对某些3D 重建任务带来挑战。多视图是指从不同视角捕获的同一场景或物体的多个2D 图像集合（Jensen et al. [2014]）。它通过立体匹配（stereo matching）或基于运动的结构恢复（SfM）等技术来推断3D 信息，其核心原理是利用不同视角下的视差（parallax）来重建场景几何结构。多视图在3D 重建和VR 等领域有广泛应用，为创建沉浸式的真实场景体验提供基础。例如，在摄影测量中，通过分析多个重叠图像来生成详细的3D 模型；在自动驾驶领域，车载多相机系统采集的多视图用于感知周围环境的3D 结构。与其他3D 视觉表征相比，多视图能够保持高保真的表观特征，因为它们直接从真实图像中捕获纹理信息。但是，这种方法需要复杂的算法来实现精确的深度估计和3D 重建，且处理大量图像时会带来较高的计算复杂度。2.1.2 显式3D 表征显式3D 表征通过直接定义3D 模型的几何形状来表示3D 结构，能够提供清晰和详细的结构信息。这类表征方式直观且易于操作，但在表示复杂形状时往往需要较大的存储空间。典型的显式3D 表征有：点云（point cloud）、体素（voxel grid）、网格（mesh）和3D 高斯（3D Gaussian Splatting, 3DGS）。点云是一种通过在3D 空间中采样点来表示3D 物体或场景的表征方式（Dai et al. [2017]）。点云中的每个点都由其空间坐标(x, y, z) 表征，并可以包含额外的属性信息，如颜色、法向量或强度值等。这种表征形式是激光雷达（LiDAR）、结构光扫描仪或立体视觉系统等3D 扫描设备的直接输出。点云提供了物体表面的离散采样表示，而非连续表面。它在存储原始几何数据方面简单高效，但通常缺乏定义物体表面或点之间拓扑关系所需的信息，这使得在未经进一步处理的情况下难以执行渲染或仿真等任务（点云不可微）。为了提升实用性，点云常常被转换为更具结构化的形式，如体素或网格。点云这种显式3D 表征在多个领域均有广泛应用，包括自动驾驶（用于环境感知）、机器人（用于导航和地图构建）以及3D 重建（用于物体或场景扫描）等。这种表征方式的主要优势是其简单性和直观性，但在处理复杂几何形状和表面细节时可能需要额外的处理步骤，从而增加任务实现的难度。体素是一种将3D 空间离散化为大小相等的立方体单元的表征方式（Zhou and Tuzel [2018]），类似于2D 图像中的像素。每个体素代表空间中的一小部分，可以存储诸如占用状态（体素是否包含物体的一部分）、颜色或密度等属性信息。体素在需要体积分析或明确建模物体内部和外部结构的应用中具有特殊优势，如医学成像（CT 或MRI）和体积渲染等。其一个关键优势是规则的结构特性，这使它特别适合直接用于3D 卷积神经网络（3D CNNs）进行目标分类、分割和场景理解等任务。然而，体素的计算成本较高，因为数据大小随分辨率呈立方增长，这导致在表示详细物体或大场景时需要大量内存。为了缓解这一问题，通常采用八叉树等技术，通过在不同分辨率下层次化表示体素来降低计算负担，同时保持几何细节，这种方法能够在保证表征精度的同时提高计算效率。网格是一种使用相互连接的顶点、边和面（通常是多边形，最常见的是三角形或四边形）来表示3D 表面的表征方式（Mo et al. [2019]）。由于其能够以相对较少的数据点高效表示复杂表面，网格在计算机图形学和3D 游戏建模领域得到广泛应用。网格中的每个顶点对应3D 空间中的一个点(x, y, z)，边定义了顶点之间的连接关系，形成物体的结构。面构成了定义物体形状的表面。网格在渲染方面特别高效，因为它们能够在最小化数据量的同时实现平滑和详细的表面表示。网格简化技术可以在保留重要几何特征的同时降低网格复杂度，使其能够同时适用于高精度和实时应用场景。这种表征方式结合了表面的连续性和计算的高效性，是最常用的3D 表征方式之一。3DGS 使用高斯函数以概率化的方式表示3D 几何结构（Kerbl et al. [2023]）。在这种方法中，空间中的每个点都与一个高斯椭球体（Gaussian blob）相关联，这些高斯表征可以组合形成更复杂的形状，每个高斯都有明确的3D 空间位置(x, y, z)、旋转参数、缩放参数、不透明度和颜色特征。3DGS 渲染时直接将3D 高斯投影到2D 图像平面，该过程须保证连续可微。3DGS 在体积渲染、场景重建和神经渲染等领域有广泛应用，它结合了显式表征的直观性和概率模型的灵活性，但高斯椭球的表征形式相对稀疏，存在难以准确表示薄结构和精细几何的问题，在遮挡区域的重建质量尤其不佳。2.1.3 隐式3D 表征隐式3D 表征通过数学函数而非直接的几何形状来定义3D 结构。这类表征方式紧凑且能够高效地捕获复杂形状，但将其解码为显式几何形状可能较为困难。典型的隐式3D 表征有：神经隐式表征（neural implicit representation）、占用场（occupancy field）和符号距离场（SDF）。神经隐式表征是一种使用神经网络编码3D 几何的有效方法，通常特指神经辐射场（NeRF, Mildenhall et al. [2021]）。它不是通过显式的顶点和面来表示形状，而是通过可以在3D 空间中任意点进行查询的连续函数来表示。这种方法能够实现高细节和平滑的表面表征，特别适合表示复杂形状。神经隐式表征的一个关键优势是其能够从多种输入数据中学习，如2D 图像、点云或体素，从而有效地捕获几何的精细细节和变化。这种表征方式将3D 形状编码为神经网络的参数，通过学习连续的映射函数来表达空间几何信息。需要补充的是，这类方法通常用MLP 来实现隐式函数，可以表示为从空间坐标到某种属性（如辐射场）的映射。其连续性和可微性使其在3D 重建和渲染任务中展现出独特优势。占用场是一种特定的神经隐式表征，用于判断3D 空间中的点是否被物体表面占据（Xu et al. [2021]）。它通常被建模为一个二值函数，对每个查询点返回表示占用（1）或非占用（0）的值。通过对3D 数据（如点云或体素）进行训练，占用场可以学习近似复杂表面，并提供物体的紧凑表征。这种方法将3D 形状编码为判断空间点内外的连续函数，使得几何信息能够通过神经网络参数来表达。这种表征方式在场景理解和3D 重建等应用中特别有效，因为它支持高效的表面查询和渲染。占用场的连续性使其能够自然地表达物体的拓扑结构，同时其基于学习的特性使其能够从不完整或噪声数据中重建完整的几何形状。符号距离场是一种广泛使用的隐式表征形式，它基于空间中给定点到最近表面的距离来编码3D 形状的几何信息（Oleynikova et al. [2017]）。SDF 函数对物体内部的点返回负值，表面上的点返回零值，物体外部的点返回正值。这种特性使得SDF 能够提供平滑且连续的表面表征，特别适用于形状混合、变形和碰撞检测等任务。在这种表征中，空间中每个点的距离值提供了丰富的几何信息，不仅指示了点的内外位置，还包含了到表面的精确距离。近年来SDF 常与神经网络结合，形成神经SDF 表征，进一步提升了其表达能力和应用范围。2.2 3D 视觉任务的主要挑战目前将深度学习方法应用于3D 视觉任务是主流的研究路线，如卷积神经网络（CNN）、图神经网络（GNN）和Transformer 等。然而，该研究路线还存在三类主要的技术挑战：遮挡问题、点密度变化问题以及噪声和离群点问题。2.2.1 遮挡问题遮挡（occlusion）是3D 视觉任务中的一个主要挑战，其发生在场景中某些物体被其他物体遮挡的情况下。这个问题在密集杂乱的环境中尤其突出，因为多个物体可能相互重叠或遮挡。在这种情况下，激光雷达或立体相机等3D 传感器可能无法捕获被遮挡物体的所有表面，导致数据的不完整或失真。这种信息的缺失会对下游任务造成影响，如目标识别、表面重建或场景理解。尽管诸如多视图聚合、深度补全和感知遮挡的模型等技术可以缓解这个问题，但遮挡仍然是一个具有挑战性的问题，特别是在自动驾驶或机器人导航等实时应用中，动态物体可能持续遮挡场景的部分区域。2.2.2 点密度变化问题点密度变化（varying point density）是3D 视觉任务中的一个普遍问题，表现为扫描设备生成的点云在不同区域呈现不同的采样密度。在扫描的物体或场景中，某些区域可能具有密集采样，而其他区域则可能点分布稀疏。这种变化主要受三个因素影响：传感器到物体的距离、扫描光束的入射角度以及表面的反射特性。例如，靠近传感器或直接面对传感器的物体通常具有密集的点覆盖，而远处或处于倾斜角度的物体则点数较少。这种非均匀性给3D 表面重建、特征提取和目标检测等任务带来了挑战。虽然点云上采样、表面插值和非均匀采样补偿等算法可以用来缓解这个问题，但在计算复杂度和实时性能之间的权衡仍然是一个重要问题，特别是在大规模环境中。2.2.3 噪声和离群点问题噪声和离群点（noise and outlier）是3D 数据采集中的固有挑战，通常由传感器精度限制或环境因素引起。噪声表现为由扫描过程中的不准确性导致的点位置的微小偏差，而离群点则是偏离其真实位置的点，可能由反射、传感器标定误差或环境干扰等因素造成。这些噪声和离群点会扭曲3D 物体的形状和结构，导致后续处理的数据不可靠。虽然去噪滤波器以及离群点去除算法等可以处理这些问题，但在消除噪声和保留3D 数据中重要细节之间找到适当的平衡仍然具有挑战性，尤其是在医学成像或高精度工业检测等对精度要求较高的应用中。

3 扩散模型在3D 视觉任务中的典型应用3.1 扩散模型无条件3D 视觉内容生成扩散模型无条件3D 视觉内容生成指的是直接利用无条件扩散模型生成3D 对象的结构或纹理，而不依赖特定的输入条件作为引导。该方法利用扩散模型提供的先验知识从随机噪声或隐变量中采样并合成新的3D 对象，目标是使得生成的内容逼真（realistic）且多样化。图3: 扩散模型无条件3D 视觉内容生成.Point-Voxel Diffusion（Zhou et al. [2021]）是最早将扩散模型用于3D 视觉内容生成的工作之一。该方法将去噪扩散模型与点-体素混合的3D 形状概率生成模型相结合，将观察到的点云数据反向扩散为高斯噪声，并通过执行一系列去噪步骤来生成3D 形状。LION（Vahdat et al. [2022]）是一个新颖的3D 形状生成模型，它使用了一个包含层次化隐空间的变分自编码器（VAE）框架，该框架包括用于表征全局形状的隐变量和用于描述点云结构的隐空间。LION的核心是在这些隐空间中训练两个层次的去噪扩散模型（DDMs）来生成3D 形状。DiT-3D（Mo et al. [2023]）是一种将点云转换为体素表征并利用扩散模型对体素化点云进行去噪操作来生成高质量3D 形状的方法。该方法使用在ImageNet 上预训练的DiT-2D 模型进行初始化，并通过微调来提升3D 生成任务的性能。DiffRF（Müller et al. [2023]）提出了一种在3D 物体的辐射场表征上进行内容生成的方法，它使用3D扩散模型在显式体素上直接生成辐射场。该方法通过3D 监督和体积渲染来引导生成过程，实现了高保真3D 视觉内容的无条件生成。此外，Nunes et al. [2024] 提出了一种基于扩散模型的激光雷达场景补全方法，该方法直接在点云数据上操作，而不依赖体素表征。该方法通过对每个点局部添加噪声而不是将输入数据归一化到噪声范围来重新定义扩散模型中的去噪方案，使模型能够有效地学习场景的详细结构信息。3.2 扩散模型赋能跨模态3D 视觉内容生成3.2.1 图像到3D 视觉内容生成图像到3D 视觉内容生成旨在将2D 图像转换为3D 表征，这是3D 视觉中的一个重要且具有挑战性的任务。扩散模型能够从一个或多个2D 视图中推断深度、结构和纹理信息，从而生成准确的3D 重建结果。这种能力在图像3D 重建或通过渐进细化模型对空间结构理解来增强单视图3D 预测等应用中发挥着关键作用。近期研究工作探索了利用扩散模型来解决从单幅图像重建3D 物体这一具有挑战性的任务，其中扩散模型提供了强大的生成先验，有助于约束这个不适定的逆问题。扩散模型在图像到3D 视觉内容生成任务中的应用展现了其在处理高度不确定性和歧义性问题上的优势，通过逐步细化和去噪过程，能够从有限的2D 信息中恢复出丰富的3D 结构信息。图4: 扩散模型赋能图像到3D 视觉内容生成.Score Jacobian Chaining（SJC, Wang et al. [2023a]）提出了一种通过链式法则将扩散模型的梯度与可微渲染器的雅可比矩阵相乘的方法，实现了2D 图像梯度向3D 对象梯度的聚合，使得预训练的2D 扩散模型无需额外的3D 数据即可用于3D 视觉内容生成任务。RealFusion（Melas-Kyriazi et al. [2023]）利用扩散模型学习到的先验来补充缺失信息，通过优化特定文本提示（prompt），使扩散模型能够生成物体的其他可能视角，从而从单一图像重建物体的360° 3D 模型，在无需3D 监督的情况下实现了任意物体的高质量3D 重建。Liu et al. [2024b] 将2D 扩散模型用于生成多视图，并结合基于代价体积的神经表面重建方法来从多视图预测重建3D 网格。这种方法能够从单一图像快速重建高质量的3D 网格模型，显著减少了重建时间，同时更准确地捕获输入图像的细节和结构。不同于之前依赖NeRF 和Transformer 的方法，Tang et al. [2023] 采用3D 高斯散射并引入了多视图高斯特征这一新的3D 表征方法，这些特征可以融合用于可微渲染。该工作提出了一个新颖的框架，利用多视图高斯特征和非对称U-Net 骨干网络，能够从单视图图像或文本提示快速生成高分辨率3D 对象。Consistent123（Lin et al. [2024]）提出了一个两阶段的图像到3D 视觉内容生成框架。在第一阶段，该方法充分利用3D 结构先验进行几何建模，并引入基于CLIP 的情景感知自适应检测机制。第二阶段引入2D 纹理先验，逐步占据主导地位来细化3D 模型的细节。在整个优化过程中，该模型强调3D 结构引导的同时，随时间推移逐步突出2D 先验的重要性以优化纹理细节，从而实现更高质量的3D 重建。3.2.2 文本到3D 视觉内容生成文本到3D 视觉内容生成任务致力于直接从文本描述生成3D 对象或场景。扩散模型由于其能够有效桥接语言和3D 结构的能力，特别适合此类任务，能够合成具有语义意义的3D 对象，这对游戏、VR 等领域的内容设计具有重要意义。图5: 扩散模型赋能文本到3D 视觉内容生成.Nichol et al. [2022] 探索了如何使用扩散模型从自然语言描述高效生成3D 点云。该方法首先使用文本到图像的扩散模型合成单一视图，然后使用第二个条件扩散模型基于生成的图像生成3D 点云。Latent-NeRF（Metzer et al. [2023]）提出了一种在隐空间而非标准RGB 空间中操作的新型NeRF 模型。这种方法避免了在每个引导步骤中将渲染的RGB 图像编码到隐空间的计算负担。通过在隐空间中将文本特征作为另一个输入用于文本引导，增强了模型基于文本描述生成3D 表征的能力。变分得分蒸馏（VSD, Wang et al. [2024]）提出了一种基于粒子的变分框架，将3D 参数建模为随机变量，这与传统得分蒸馏采样（SDS）中使用常量的方法形成对比。通过优化3D 场景的分布，VSD 致力于使所有视角渲染的图像分布与预训练2D 扩散模型定义的分布紧密匹配。这种方法通过结合变分推断和扩散模型的优势，提升了3D 内容生成的灵活性和准确性。Ling et al. [2024] 提出了通过利用动态3D 高斯散射和复合扩散模型从文本描述生成高质量4D 动态场景的新方法。该方法使用动态3D 高斯混合和变形场作为4D 表征的骨干，其中变形场捕获场景动态并转换3D 高斯集合以表示物体运动。这种方法结合了文本到图像、文本到视频和3D 感知多视图扩散模型，在基于分数蒸馏的合成框架中提供反馈。GaussianDreamer（Yi et al. [2024]）探索了如何在保持3D 一致性和细节生成的同时，高效地从文本提示生成3D 高斯表征。该框架通过高斯散射连接3D 和2D 扩散模型，其中3D 扩散模型提供初始化先验，2D 扩散模型同时增强几何和外观，从而产生纹理细节丰富且连贯的3D 输出。3.3 扩散模型赋能3D 网格与纹理生成网格生成与纹理生成是3D 建模中的关键任务，其中网格生成涉及创建定义3D 物体结构的多边形网格，而纹理生成则关注将真实的表面细节映射到这些网格上。扩散模型通过从学习的分布中生成高保真的网格和纹理来辅助这两个过程，确保几何准确性和符合真实世界表观的表面细节，这在计算机图形学和VR 等应用中具有重要价值。图6: 扩散模型赋能3D 网格与纹理生成.TexFusion（Cao et al. [2023]）通过使用隐扩散模型和3D 一致性采样方案实现了文本引导的3D 纹理合成。该方法在不同的2D 渲染视图上运行扩散模型，并在每次去噪迭代后将预测结果聚合到隐空间的纹理图中，有效地生成了具有丰富细节和一致性的纹理。Point-UV Diffusion（Yu et al. [2023]）提出了一个结合去噪扩散模型和UV 映射的两阶段"粗粒度到细粒度"框架，用于自动生成与3D 网格模型几何兼容的高保真纹理图像。首先使用点扩散模型合成低频纹理成分，引入风格引导机制来解决数据集中的颜色分布偏差。这些着色点随后被映射到2D-UV 空间，并通过3D 坐标插值生成粗糙纹理图像，保持3D 一致性和连续性。Richardson et al. [2023] 使用预训练的深度到图像扩散模型从不同视角渲染3D 模型，并引入动态三分图分割技术。通过考虑三分图分割，提出了改进的扩散过程，用于生成跨视角的无缝纹理，实现了3D模型的文本引导纹理生成、迁移和编辑，显著提升了纹理生成的质量和速度。Paint3D（Zeng et al. [2024]）致力于解决生成无嵌入光照信息的高质量纹理的挑战。通过利用预训练的2D 图像扩散模型和专门设计的UV 映射，实现了从文本或图像输入生成高质量、无光照的3D 纹理图的目标。DreamMat（Zhang et al. [2024]）提出了一种在训练过程中考虑给定光照环境的新型扩散模型，用于在特定光照条件下生成着色结果。通过在材质提取过程中应用相同的环境光照，能够生成与给定几何结构一致且无需阴影烘焙的高质量PBR 材质。

3.4 扩散模型赋能3D 数字人生成3D 数字人生成旨在创建真实或风格化的人体3D 模型。扩散模型有助于生成具有准确解剖比例、动态姿态和纹理的3D 数字人，还可以针对数字人的面部表情或身体运动进行微调，使该研究方向在游戏、VR 和数字时尚等领域具有重要价值。Wang et al. [2023b] 探索了如何使用扩散模型生成以NeRF 表示的高保真3D 数字人。RODIN 模型通过将3D 特征图展开到2D 平面并应用考虑3D 数据向2D 平面投影关系的3D 感知卷积，有效地生成了具有丰富细节的3D 数字人。PrimDiffusion（Chen et al. [2023]）提出了首个基于扩散模型的3D 数字人生成框架。该方法提出了一种基于体素元的3D 人体表征方法，将人体建模为具有辐射和运动信息的多个小体素。通过直接在体素元上进行扩散和去噪，该框架解决了常规3D 表征的高计算成本和3D 人体拓扑的复杂性问题。HumanNorm（Huang et al. [2024]）提出了一种新的方法，通过学习法线自适应扩散模型和法线对齐扩散模型来增强模型对3D 几何的2D 感知。此外，该方法引入了渐进式几何生成策略和多步SDS 损失函数，以提升3D 数字人生成的性能。PhysDiff（Yuan et al. [2023]）引入了一种新颖的物理引导人体运动扩散模型，解决了传统运动扩散模型常常忽视物理定律而导致生成物理不真实运动的问题。该模型通过使用基于物理的运动投影模块在扩散过程中引入物理约束。该模块利用物理模拟器的运动模仿将扩散步骤中的去噪运动投影到物理上合理的运动中。图7: 扩散模型赋能3D 数字人生成.3.5 扩散模型赋能3D 视觉内容编辑3D 视觉内容编辑和操作指对现有3D 物体或场景进行编辑或修改。扩散模型可以用于对形状、纹理或姿态进行微调，同时保持真实性。通过直接操作3D 数据或其隐空间表征，扩散模型能够以最小的失真实现3D 结构的高效操作。图8: 扩散模型赋能3D 视觉内容编辑.DATID-3D（Kim and Chun [2023]）提出了一种新颖的3D 生成模型域适应方法。该方法利用文本到图像扩散模型和对抗训练来保持文本提示的多样性，将预训练3D 生成器的样本转换为多样化的目标图像，同时生成高质量的3D 图像。HeadSculpt（Han et al. [2024]）致力于解决现有文本引导3D 头部模型编辑中身份特征丢失或编辑效果欠佳的问题。该方法提出了一个粗到细的工作流程，首先整合基于关键点的ControlNet 和文本反转技术，为扩散模型注入3D 感知能力，确保从不同视角生成的头部模型的一致性。随后，使用带有InstructPix2Pix 实现的ControlNet，融合编辑和身份保持得分来优化纹理网格，同时保持原始身份信息并遵循编辑指令。SketchDream（Liu et al. [2024a]）提出了一种结合草图和文本提示的技术，利用多视图生成和3D 编辑技术，实现从简单2D 草图生成和编辑复杂3D 模型的高质量结果。为解决2D 到3D 转换中的歧义性，引入了一个基于草图的多视图生成扩散模型，利用深度信息建立空间对应关系。采用3D ControlNet 来控制多视图并确保其3D 一致性。为支持局部编辑，提出了一个粗到细的编辑框架。在粗阶段分析组件交互并提供3D 掩码标记编辑区域；在细阶段应用局部增强以生成具有精细细节的真实结果。GaussianEditor（Chen et al. [2024]）致力于解决传统3D 编辑方法在处理复杂场景时的局限性，以及基于隐式3D NeRF 方法在处理速度和编辑控制方面的不足。该工作引入了高斯语义追踪技术，通过在训练过程中跟踪编辑目标，实现对高斯散射的精确控制。APAP（Yoo et al. [2024]）旨在提升用户交互编辑过程中变形网格的视觉真实性。该框架使用每个面的雅可比矩阵表示网格变形，通过可微泊松求解器计算网格顶点坐标。首先将变形网格渲染为2D 图像，通过SDS 过程提取有意义和合理的先验。为更好地保持编辑网格的身份特征，APAP 使用LoRA 微调了2D 扩散模型。最终通过迭代梯度下降计算最终变形，在用户编辑和输出合理性之间取得平衡。

3.6 扩散模型赋能3D 新视角合成3D 新视角合成旨在基于有限的输入2D 视图生成3D 场景中未见视角的图像。扩散模型通过预测场景在不同角度下的表现，提供连贯一致的视觉输出，在这一领域表现出色。该研究方向对虚拟旅游、交互式媒体和机器人等需要从多个视角理解环境的应用至关重要。图9: 扩散模型赋能3D 新视角合成.NeRDi（Deng et al. [2023]）提出了一个利用2D 扩散模型的通用图像先验进行单视图NeRF 合成的框架。该方法将单视图重建问题表述为受图像条件约束的3D 生成问题，通过最小化任意视角渲染的扩散模型图像分布损失来优化NeRF 的隐式表征。Zero-1-to-3（Liu et al. [2023a]）探索了如何以零样本方式从单一RGB 图像合成3D 物体的新视角图像。该框架在合成数据集上训练以学习相对相机视角的控制，实现在指定相机变换下生成同一物体的新图像。此外，该框架通过优化神经场来实现单图像3D 重建任务。SyncDreamer（Liu et al. [2023b]）引入了一种新型扩散模型，通过建模多视图的联合概率分布，在单一反向过程中实现一致的图像生成。SyncDreamer 使用3D 感知特征注意力机制，通过关联不同视角的对应特征来同步生成图像的中间状态。此外，该方法使用预训练扩散模型初始化SyncDreamer 以保持强大的泛化能力。Höllein et al. [2024] 提出了利用预训练文本到图像扩散模型作为先验的3D 新视角合成方法。通过结合3D 体积渲染、跨帧注意力层和自回归生成策略，模型能够在生成过程中基于先前生成的图像来条件化下一个视角的图像生成。这种方法能够基于文本或图像输入，生成跨多个视角与真实3D 物体保持一致的高质量图像。Ye et al. [2024] 将3D 新视角合成任务分解为两个阶段。首先使用SRT（场景表征Transformer）将观察到的区域转换到新视角，然后使用视角条件扩散模型来想象未见区域。此外，该方法引入了一个能够生成一致长视图序列的层次化生成范式，实现了对提供物体图像的完整360° 观察。4 Benchmarks 概述本章综述典型的3D 视觉数据集，并介绍3D 视觉任务常用的质量评价指标。对于数据集，本章按照3D对象类型的不同将其划分为：物体、人类和场景数据集。对于评价指标，本章按照度量方式的不同将其划分为：距离、分布、相似度、质量和误差度量指标。4.1 3D 视觉数据集表1: 典型的3D 视觉数据集.表2: 3D 视觉任务常用的质量评价指标.4.1.1 3D 物体数据集在众多3D 物体数据集中，ShapeNet（Chang et al. [2015]）作为最早且最具基础性的数据集之一，包含了跨越多个类别的51K 个合成3D CAD 模型，对该领域的后续研究产生了重要影响。CO3D（Reizenstein et al. [2021]）以其大规模真实扫描的3D 物体而著称，包含19K 个模型，支持详细分析，已成为细粒度3D 物体相关任务的重要资源。Objaverse（Deitke et al. [2023]）代表了数据集规模的重大突破，拥有近800K 个模型，是上述数据集中规模最大的，为训练面向3D 理解的深度学习模型提供了广泛的应用基础。除上述数据集外，ABO（Collins et al. [2022]）和GSO（Downs et al. [2022]）等数据集在3D 物体生成研究中也发挥着重要作用。这些数据集的多样性和规模为3D 生成和理解任务提供了丰富的训练资源，推动了相关技术的发展。4.1.2 3D 人类数据集在聚焦3D 人体表征的数据集中，Renderpeople（Renderpeople [2024]）作为最大的合成数据集，包含近40K 个模型，其广泛的规模为计算机图形学和机器学习的各种应用提供了宝贵的资源。THuman 2.0 数据集（Yu et al. [2021]）虽然仅包含500 个真实人体模型，但作为该领域最早的数据集之一，对人体运动和行为识别研究做出了重要贡献。UESTC 数据集（Ji et al. [2019]）包含25.6K 个真实人体模型，以其可观的规模和在实际场景中的应用价值而突出。

其他数据集如HumanML3D（Guo et al. [2022]）、AMASS（Mahmood et al. [2019]）和FaceScape（Yang et al. [2020]）等，也为人体建模和动画领域提供了重要的研究基础。这些数据集的多样性为3D 人体建模、动作生成和表情分析等任务提供了全面的支持。4.1.3 3D 场景数据集在3D 场景数据集中，Realestate10K（Zhou et al. [2018]）以其包含750K 个场景的规模成为最大的数据集，为场景识别和分析的进展做出了重要贡献。KITTI（Geiger et al. [2012]）作为最早建立的自动驾驶应用数据集之一，包含389 个场景，为计算机视觉和机器人领域的研究提供了基础数据支持。ScanNet（Dai et al. [2017]）以其广泛的真实室内场景收集而闻名，包含近1,500 个不同的场景，成为训练和基准测试算法最广泛使用的数据集之一。其他数据集如NyuDepth（Silberman et al. [2012]）和Waymo（Sun et al. [2020]）在3D 室内和室外场景相关研究中也发挥着重要作用。这些数据集的多样性为场景理解、重建和生成等任务提供了全面的研究基础。4.2 3D 视觉任务的评价指标3D 视觉任务常用的质量评价指标如表2 所示。5 结论本报告系统地综述了扩散模型在3D 视觉领域的最新研究进展。从扩散模型的基础理论出发，深入分析了其在3D 内容生成、编辑和新视角合成等核心任务中的应用。通过详细介绍3D 视觉表征的基本形式和主要挑战，以及扩散模型的技术架构和实现方案，展示了扩散模型在解决复杂3D 视觉任务中的独特优势。同时，报告对常用的3D 视觉数据集和评价指标进行了较为全面的梳理，为后续研究提供了重要参考。随着具身智能、自动驾驶、VR 和医学成像等应用的快速发展，扩散模型在3D 视觉领域展现出的强大潜力将继续推动该领域的技术创新和突破。参考文献T. Cao, K. Kreis, S. Fidler, N. Sharp, and K. Yin. Texfusion: Synthesizing 3d textures with text-guided image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4169--4181, 2023.A. X. Chang, T. Funkhouser, L. Guibas, P. Hanrahan, Q. Huang, Z. Li, S. Savarese, M. Savva, S. Song, H. Su, et al. Shapenet: An information-rich 3d model repository. arXiv preprint arXiv:1512.03012, 2015.Y. Chen, Z. Chen, C. Zhang, F. Wang, X. Yang, Y. Wang, Z. Cai, L. Yang, H. Liu, and G. Lin. Gaussianeditor: Swift and controllable 3d editing with gaussian splatting. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 21476--21485, 2024.Z. Chen, F. Hong, H. Mei, G. Wang, L. Yang, and Z. Liu. Primdiffusion: Volumetric primitives diffusion for 3d human generation. Advances in Neural Information Processing Systems, 36:13664--13677, 2023.J. Collins, S. Goel, K. Deng, A. Luthra, L. Xu, E. Gundogdu, X. Zhang, T. F. Y. Vicente, T. Dideriksen, H. Arora, et al. Abo: Dataset and benchmarks for real-world 3d object understanding. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 21126--21136, 2022.A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and M. Nießner. Scannet: Richly-annotated 3d reconstructions of indoor scenes. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5828--5839, 2017.M. Deitke, D. Schwenk, J. Salvador, L. Weihs, O. Michel, E. VanderBilt, L. Schmidt, K. Ehsani, A. Kembhavi, and A. Farhadi. Objaverse: A universe of annotated 3d objects. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13142--13153, 2023.C. Deng, C. Jiang, C. R. Qi, X. Yan, Y. Zhou, L. Guibas, D. Anguelov, et al. Nerdi: Single-view nerf synthesis with language-guided diffusion as general image priors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 20637--20647, 2023.L. Downs, A. Francis, N. Koenig, B. Kinman, R. Hickman, K. Reymann, T. B. McHugh, and V. Vanhoucke. Google scanned objects: A high-quality dataset of 3d scanned household items. In 2022 International Conference on Robotics and Automation (ICRA), pages 2553--2560. IEEE, 2022.A. Geiger, P. Lenz, and R. Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In 2012 IEEE conference on Computer Vision and Pattern Recognition, pages 3354--3361. IEEE, 2012.C. Guo, S. Zou, X. Zuo, S. Wang, W. Ji, X. Li, and L. Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5152--5161, 2022.X. Han, Y. Cao, K. Han, X. Zhu, J. Deng, Y.-Z. Song, T. Xiang, and K.-Y. K. Wong. Headsculpt: Crafting 3d head avatars with text. Advances in Neural Information Processing Systems, 36, 2024.L. Höllein, A. Božič, N. Müller, D. Novotny, H.-Y. Tseng, C. Richardt, M. Zollhöfer, and M. Nießner. Viewdiff: 3d-consistent image generation with text-to-image models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5043--5052, 2024.X. Huang, R. Shao, Q. Zhang, H. Zhang, Y. Feng, Y. Liu, and Q. Wang. Humannorm: Learning normal diffusion model for high-quality and realistic 3d human generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4568--4577, 2024.R. Jensen, A. Dahl, G. Vogiatzis, E. Tola, and H. Aanæs. Large-scale multi-view stereopsis evaluation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 406--413, 2014.Y. Ji, F. Xu, Y. Yang, F. Shen, H. T. Shen, and W.-S. Zheng. A large-scale varying-view rgb-d action dataset for arbitrary-view human action recognition. arXiv preprint arXiv:1904.10681, 2019.B. Kerbl, G. Kopanas, T. Leimkühler, and G. Drettakis. 3d gaussian splatting for real-time radiance field rendering. ACM Trans. Graph., 42(4):139--1, 2023.G. Kim and S. Y. Chun. Datid-3d: Diversity-preserved domain adaptation using text-to-image diffusion for 3d generative model. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14203--14213, 2023.Y. Lin, H. Han, C. Gong, Z. Xu, Y. Zhang, and X. Li. Consistent123: One image to highly consistent 3d asset using case-aware diffusion priors. In Proceedings of the 32nd ACM International Conference on Multimedia, pages 6715--6724, 2024.H. Ling, S. W. Kim, A. Torralba, S. Fidler, and K. Kreis. Align your gaussians: Text-to-4d with dynamic 3d gaussians and composed diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8576--8588, 2024.F.-L. Liu, H. Fu, Y.-K. Lai, and L. Gao. Sketchdream: Sketch-based text-to-3d generation and editing. ACM Transactions on Graphics (TOG), 43(4):1--13, 2024a.M. Liu, C. Xu, H. Jin, L. Chen, M. Varma T, Z. Xu, and H. Su. One-2-3-45: Any single image to 3d mesh in 45 seconds without per-shape optimization. Advances in Neural Information Processing Systems, 36, 2024b.R. Liu, R. Wu, B. Van Hoorick, P. Tokmakov, S. Zakharov, and C. Vondrick. Zero-1-to-3: Zero-shot one image to 3d object. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9298--9309, 2023a.Y. Liu, C. Lin, Z. Zeng, X. Long, L. Liu, T. Komura, and W. Wang. Syncdreamer: Generating multiview-consistent images from a single-view image. arXiv preprint arXiv:2309.03453, 2023b.N. Mahmood, N. Ghorbani, N. F. Troje, G. Pons-Moll, and M. J. Black. Amass: Archive of motion capture as surface shapes. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5442--5451, 2019.L. Melas-Kyriazi, I. Laina, C. Rupprecht, and A. Vedaldi. Real fusion: 360deg reconstruction of any object from a single image. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8446--8455, 2023.G. Metzer, E. Richardson, O. Patashnik, R. Giryes, and D. Cohen-Or. Latent-nerf for shape-guided generation of 3d shapes and textures. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12663--12673, 2023.B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamoorthi, and R. Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM, 65(1): 99--106, 2021.K. Mo, S. Zhu, A. X. Chang, L. Yi, S. Tripathi, L. J. Guibas, and H. Su. Partnet: A large-scale benchmark for fine-grained and hierarchical part-level 3d object understanding. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 909--918, 2019.S. Mo, E. Xie, R. Chu, L. Hong, M. Niessner, and Z. Li. Dit-3d: Exploring plain diffusion transformers for 3d shape generation. Advances in neural information processing systems, 36:67960--67971, 2023.N. Müller, Y. Siddiqui, L. Porzi, S. R. Bulo, P. Kontschieder, and M. Nießner. Diffrf: Rendering-guided 3d radiance field diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4328--4338, 2023.A. Nichol, H. Jun, P. Dhariwal, P. Mishkin, and M. Chen. Point-e: A system for generating 3d point clouds from complex prompts. arXiv preprint arXiv:2212.08751, 2022.L. Nunes, R. Marcuzzi, B. Mersch, J. Behley, and C. Stachniss. Scaling diffusion models to real-world 3d lidar scene completion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14770--14780, 2024.H. Oleynikova, Z. Taylor, M. Fehr, R. Siegwart, and J. Nieto. Voxblox: Incremental 3d euclidean signed distance fields for on-board mav planning. In 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 1366--1373. IEEE, 2017.J. Reizenstein, R. Shapovalov, P. Henzler, L. Sbordone, P. Labatut, and D. Novotny. Common objects in 3d: Large-scale learning and evaluation of real-life 3d category reconstruction. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 10901--10911, 2021.Renderpeople. World's largest 3D people library, 2024. URL https://renderpeople.com/. [Online; accessed 25-November-2024].E. Richardson, G. Metzer, Y. Alaluf, R. Giryes, and D. Cohen-Or. Texture: Text-guided texturing of 3d shapes. In ACM SIGGRAPH 2023 conference proceedings, pages 1--11, 2023.N. Silberman, D. Hoiem, P. Kohli, and R. Fergus. Indoor segmentation and support inference from rgbd images. In Computer Vision--ECCV 2012: 12th European Conference on Computer Vision, Florence, Italy, October 7-13, 2012, Proceedings, Part V 12, pages 746--760. Springer, 2012.Y. Song, J. Sohl-Dickstein, D. P. Kingma, A. Kumar, S. Ermon, and B. Poole. Score-based generative modeling through stochastic differential equations. arXiv preprint arXiv:2011.13456, 2020.P. Sun, H. Kretzschmar, X. Dotiwalla, A. Chouard, V. Patnaik, P. Tsui, J. Guo, Y. Zhou, Y. Chai, B. Caine, et al. Scalability in perception for autonomous driving: Waymo open dataset. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2446--2454, 2020.J. Tang, T. Wang, B. Zhang, T. Zhang, R. Yi, L. Ma, and D. Chen. Make-it-3d: High-fidelity 3d creation from a single image with diffusion prior. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 22819--22829, 2023.A. Vahdat, F. Williams, Z. Gojcic, O. Litany, S. Fidler, K. Kreis, et al. Lion: Latent point diffusion models for 3d shape generation. Advances in Neural Information Processing Systems, 35:10021--10039, 2022.P. Vincent. A connection between score matching and denoising autoencoders. Neural Computation, 23(7):1661--1674, 2011.H. Wang, X. Du, J. Li, R. A. Yeh, and G. Shakhnarovich. Score Jacobian chaining: Lifting pre trained 2d diffusion models for 3d generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12619--12629, 2023a.T. Wang, B. Zhang, T. Zhang, S. Gu, J. Bao, T. Baltrusaitis, J. Shen, D. Chen, F. Wen, Q. Chen, et al. Rodin: A generative model for sculpting 3d digital avatars using diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4563--4573, 2023b.Z. Wang, C. Lu, Y. Wang, F. Bao, C. Li, H. Su, and J. Zhu. Prolificdreamer: High-fidelity and diverse text-to-3d generation with variational score distillation. Advances in Neural Information Processing Systems, 36, 2024.X. Xu, X. Pan, D. Lin, and B. Dai. Generative occupancy fields for 3d surface-aware image synthesis. Advances in Neural Information Processing Systems, 34:20683--20695, 2021.H. Yang, H. Zhu, Y. Wang, M. Huang, Q. Shen, R. Yang, and X. Cao. Facescape: a large-scale high quality 3d face dataset and detailed riggable 3d face prediction. In Proceedings of the ieee/cvf Conference on Computer Vision and Pattern Recognition, pages 601--610, 2020.J. Ye, P. Wang, K. Li, Y. Shi, and H. Wang. Consistent-1-to-3: Consistent image to 3d view synthesis via geometry-aware diffusion models. In 2024 International Conference on 3D Vision (3DV), pages 664--674. IEEE, 2024.T. Yi, J. Fang, J. Wang, G. Wu, L. Xie, X. Zhang, W. Liu, Q. Tian, and X. Wang. Gaussiandreamer: Fast generation from text to 3d gaussians by bridging 2d and 3d diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6796--6807, 2024.S. Yoo, K. Kim, V. G. Kim, and M. Sung. As-plausible-as-possible: Plausibility-aware mesh deformation using 2d diffusion priors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4315--4324, 2024.T. Yu, Z. Zheng, K. Guo, P. Liu, Q. Dai, and Y. Liu. Function4d: Real-time human volumetric capture from very sparse consumer rgbd sensors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5746--5756, 2021.X. Yu, P. Dai, W. Li, L. Ma, Z. Liu, and X. Qi. Texture generation on 3d meshes with point-uv diffusion. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4206--4216, 2023.Y. Yuan, J. Song, U. Iqbal, A. Vahdat, and J. Kautz. Physdiff: Physics-guided human motion diffusion model. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 16010--16021, 2023.X. Zeng, X. Chen, Z. Qi, W. Liu, Z. Zhao, Z. Wang, B. Fu, Y. Liu, and G. Yu. Paint3d: Paint anything 3d with lighting-less texture diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4252--4262, 2024.Y. Zhang, Y. Liu, Z. Xie, L. Yang, Z. Liu, M. Yang, R. Zhang, Q. Kou, C. Lin, W. Wang, et al. Dreammat: High-quality pbr material generation with geometry-and light-aware diffusion models. ACM Transactions on Graphics (TOG), 43(4):1--18, 2024.L. Zhou, Y. Du, and J. Wu. 3d shape generation and completion through point-voxel diffusion. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5826--5835, 2021.T. Zhou, R. Tucker, J. Flynn, G. Fyffe, and N. Snavely. Stereo magnification: Learning view synthesis using multiplane images. arXiv preprint arXiv:1805.09817, 2018.Y. Zhou and O. Tuzel. Voxelnet: End-to-end learning for point cloud based 3d object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4490--4499, 2018.