【浙大&南洋理工最新综述】Feed-Forward 3D Scene Modeling（五）

7 Future Directions

尽管前馈三维重建领域已取得了显著进展，仍面临诸多挑战与机遇，这些将塑造下一代研究的走向。本节重点探讨从数据与表示的基础性问题，到学科更广泛概念发展的若干前景方向。

7.1 Rigorous Benchmarks

在三维视觉特别是前馈式三维重建的研究领域中，日益增多的基准测试反映了该领域的迅猛发展，但这些进步也同时揭示了当前评估体系的深刻矛盾与系统性不足。当前，主流的、大规模公开的数据集通常仅提供视频序列 ，而仅有极少数数据集包含可用于精确量化评估的、高质量的真实三维点云或网格数据。这种三维几何监督的缺失，导致对模型几何重建精度的衡量只能依赖图像层面的重投影误差等替代性指标，难以对三维结构的准确性、完整性和细节质量进行可靠评估，使得不同模型间的性能比较存在根本性局限性。

更为突出的问题在于，现有基准测试的设计逻辑中，往往忽略了评估场景的难度分级：

视角复杂度的单一性 ：许多数据集采用固定的输入视角或简单的前向运动，未充分考虑跨视角间的大视点差异、极端遮挡、纹理重复 等因素带来的挑战。这使得模型只需适应特定类型的视角分布即可获得高分，而不具备处理任意视角配置的泛化能力。

对"捷径学习"的潜在鼓励 ：如 RealEstate10K 和 ACID 等数据集，由于输入视图的标准化，模型可能通过记忆训练集中常见的、与几何无关的视角-内容联合统计规律来获得优异的二维渲染效果，而非真正学会理解三维结构。这导致了模型性能的虚高，即"评估膨胀"，使得性能指标无法忠实反映其三维推理能力。

评估过程的非标准化风险 ：当数据不提供严格的输入视角规范时，研究人员可能**（无意或有意地）选择对模型有利的视角**进行预测和评估。这种不透明的视角选择策略，严重破坏了横向对比的公平性和可复现性。

为了构建更具科学性、公正性和驱动力的下一代评估体系，未来的基准测试建设应：

数据质量的提升：

构建大规模、高保真、多模态的真实世界数据集 。这需要在提供高分辨率、多视角视频序列的同时，配备与其精确配准的、高质量的三维几何真值 （如激光雷达扫描的高密度点云、专业软件生成的精细网格）。数据应覆盖更丰富的场景类别 （室内、室外、动态对象、复杂结构）和更宽泛的视角基线。

评估难度的系统化组织：

根据视角基线的广度、场景结构的复杂度、光照变化的剧烈程度、遮挡的严重性、纹理的丰富度 等客观因素，对数据集内的场景或序列进行多维度、可量化的难度分级。能够更细致地反映模型在不同挑战下的鲁棒性。

评估协议的严格标准化：

必须制定明确、无歧义的输入-输出规范。对于多视角重建任务，应定义标准的视角输入集或采样策略，禁止在评估阶段进行对模型有利的选择性采样。

评价指标体系的丰富与深化：

在传统的二维度量（如PSNR、SSIM、LPIPS）之外，应强制包含并强调三维几何度量 ，如倒角距离、F分数、法向一致性 等，以直接衡量重建表面的准确性。此外，可引入更多针对特定应用（如AR/VR、机器人）的度量，如几何完整性、对下游任务的适用性、推理速度等。

下一代基准测试的使命是从一个"便于比较"的简单排名平台，转变为一个能够科学诊断模型能力边界、有效驱动技术向真实应用需求演进的"检验场"和"导航仪"。只有通过构建更高质量的数据、更严谨的协议和更全面的指标，才能确保前馈式三维重建研究在坚实可信的基础上实现持续、健康的突破。

7.2 System Efficiency

随着前馈式三维重建模型参数量与特征分辨率的不断扩张，模型在获得更高精度的同时，其推理延迟与硬件需求也相应攀升。多视角全局注意力机制、密集三维表征结构以及高分辨率体素或点云流水线的叠加，导致计算量与内存开销呈超线性增长。在固定的带宽与浮点运算预算约束下，吞吐量、延迟与精度之间的平衡已成为实际部署的主要瓶颈。尤其在大规模、长轨迹及跨序列场景中，显存利用率、内存带宽与算子调度之间的失配进一步加剧了这一限制，降低了系统实际运行效率与可扩展性。

近期研究日益聚焦于推理加速与模型轻量化。相关技术路径主要包括：通过结构化稀疏性与线性/近似注意力机制 降低多视图融合成本 $33, 106, 161, 162, 164, 166$ ；采用分层式或由粗到精的重建策略 以避免低效的三维采样 $139, 162$ ；借助视角选择与冗余剔除 控制输入数据增长 $163, 172, 173$ ；以及运用量化、剪枝、知识蒸馏、低秩与适配器层（如LoRA与适配器模块）等技术压缩参数量与激活值 $139, 163, 164$ 。展望未来，该领域的发展可围绕以下三大方向展开：

可扩展的高效重建架构：未来的突破或依赖于能更好支撑大场景、长序列输入与高分辨率表征的架构设计。值得探索的方向包括分层几何先验、显隐式混合表征、细节层次化流程，以及基于占据栅格或可见性感知的加速机制。

推理与内存优化：提升运行时效率对实际部署至关重要。混合精度计算、算子融合、CUDA图优化、外存调度等技术有助于降低延迟、提升内存利用率并保障吞吐稳定。

部署导向的系统设计：进一步的进展还需依托模型压缩与硬件感知优化，包括量化策略、自适应算子调优与面向边缘设备的异构计算。建立同步衡量精度、延迟、内存与能耗的标准化基准测试，对评估实际场景可部署性具有重要意义。

7.3 Scalable Representations

当前的主流范式旨在从"逐场景优化"领域迁移三维表示方法，例如神经辐射场、三维高斯泼溅以及显式网格。然而，为单个场景拟合而优化的表示，在有限输入下单次前馈预测场景结构 时，往往并不适配。在大规模场景中，这一局限性尤为凸显：现有前馈方法常难以在重建结果中同时维持全局一致性 与细粒度细节的刻画。

因此，亟需设计专门面向可泛化前馈重建任务的新型三维表示。相关探索已呈现多路径并行的态势：

探索方向	核心思路	代表工作/灵感来源	优势与潜力
绕过显式三维中间表示	不依赖显式三维几何，直接基于二维或隐式表征进行新视角合成	LVSM $80$ 等方法	避免三维重建的歧义性与计算开销，更专注于视角一致性，在部分任务中已展现高效性与质量潜力
借鉴视频生成的隐式表示	从视频生成领域汲取灵感，利用强 latent 编码实现时空一致性	视频扩散模型等	无需显式三维监督即可学习复杂时空先验，为构建"几何感知但不显式几何"的表示提供新范式
构建可扩展的分层/组合式表示	通过层次化或组合式结构，在表示中自然支持不同尺度	分层体素、场景图、组合式神经表示等	有望系统性地解决"场景尺度与重建质量"之间的根本矛盾，实现从局部细节到全局布局的统一建模

未来理想的三维表示应具备以下关键特征：

内在的可扩展性：能够灵活适应从室内物体到城市规模的不同场景，计算和内存开销与场景复杂度呈亚线性或可控增长。

层次化与组合性：具备从整体布局、物体级结构到表面细节的多尺度描述能力，并支持通过组合简单元素来表征复杂场景。

稠密几何与外观解耦：将几何、材质、光照等要素进行分离或低秩表示，以提升编辑性、泛化能力与物理合理性。

与生成式先验的兼容性：易于与大规模视觉-几何生成模型（如3D扩散模型）结合，支持从稀疏输入进行细节合成与不确定性推理。

7.4 World Models

前馈式三维重建正逐步超越其作为独立重建工具的传统定位，演进为世界模型的核心基石 ------即构建并维护可持久化、可探索、可交互的场景状态表示系统。在这一演进路径上，两种截然不同但互为补充的范式正在显现：视频世界模型 与三维世界模型。二者均受益于前馈重建的高效性，却在世界的表征、查询与交互方式上存在根本差异。

范式一：视频世界模型------以生成模拟世界

视频世界模型将视频生成过程本身视为一种世界模拟器 。其核心思想是：通过像素序列的时间演化，隐式编码场景动态、物理交互与视点变化。近期研究 $365, 370, 371, 386--388$ 的一个共同主题是，将几何推理注入视频生成流程，具体通过显式位姿条件控制、基于几何的潜在特征对齐，或跨生成步骤记录与检索三维场景布局的持久化空间记忆来实现。

该范式的核心优势在于强大的可扩展性与视觉丰富性 ：基于互联网规模数据训练的视频扩散模型，天然捕获了复杂的外观、光照与运动模式。然而，其世界状态始终纠缠于高维潜在空间之中，导致进行精确空间查询、施加硬性物理约束或支持显式物体级操控极为困难。

范式二：三维世界模型------以结构承载世界

三维世界模型则维护显式、结构化的场景表示 （如点云、三维高斯、网格或神经场），并将其作为可查询、可编辑的世界状态。在此范式中，前馈三维重建扮演着核心角色，它实现了对此类表示的实时构建与渐进式更新 。该方向的近期工作 $335, 368, 372, 389--394$ 共享一个通用流程：首先通过单次前馈推理从最小化输入中恢复显式三维几何，随后通过生成式填补与引导式探索逐步扩展世界，部分工作已延伸至动态4D重建或文本条件场景创建。

此范式的显式本质 为下游推理提供了清晰优势：空间查询直接明了，物理模拟可直接在几何体上运行，组合式场景编辑也天然得到支持。然而，三维世界模型目前在视觉丰富度 ，以及对未观测区域进行合理内容想象的能力上，仍落后于视频世界模型。

核心挑战与融合

尽管各自取得显著进展，但两者的深度有机融合仍是挑战，其核心难点体现在三个层面：

表征统一

如何构建一种桥梁，既能保留显式三维结构 （如点云、高斯、网格）的可编辑性与物理可解释性，又能融合隐式世界表征（如视频嵌入、动作条件预测器、符号化记忆）的生成能力与视觉丰富性？当前，这两种表征形式仍处于割裂状态。

动作-状态闭环

现有模型大多在开环模式 下运行。要实现智能体动作与世界状态更新之间的闭环，需要前馈三维模块能够根据控制信号，执行实时、增量式的场景状态更新。这要求模型不仅能预测动作的结果，还能将预测结果以几何一致的方式，持续、可逆地融合到世界状态中。

持久化可扩展记忆

两种范式均难以在长时间跨度 与大空间范围 上维持一致的世界状态。能够将几何记忆 与生成式填补统一起来的架构仍未被充分探索。例如，如何在不断增长的世界表示中高效检索、更新局部信息，同时保持全局一致性，是工程与算法上的双重挑战。

7.5 Unified Perception and Reconstruction

三维重建的未来已超越几何与外观的单一维度，正迈向深度理解的新阶段。早期研究仅将语义信息视为先验辅助，而真正的变革潜力在于与基础模型（大语言模型、多模态大模型）的深层融合。这种融合催生了多个颠覆性的研究方向。

多模态融合重建------构建"可理解"的物理世界

未来的三维重建系统将不再局限于视觉信息，而是整合视觉、文本、听觉乃至多传感器信号（如热成像、惯性测量），构建蕴含丰富语义、支持多模态查询的"可理解"物理世界模型。其核心突破体现在：

跨模态的联合表征对齐

通过设计统一的训练目标，将几何表示 与文本描述、音频信号、语义标签 在共享的语义空间中对齐。这使得模型不仅能重建三维结构，还能理解"一个炉灶应该是什么样子、通常位于何处"，从而实现语言在三维空间中的精确接地。例如，用户可直接询问"告诉我炉灶在哪里"，系统能在三维场景中定位并高亮相应物体。

结构化、可查询的场景输出

重建输出不再是"哑"的网格或点云，而是附带物体实例、空间关系、功能可供性等结构化信息的场景图。这种输出可直接服务于机器人任务规划（"请抓取桌子上的杯子"）或增强现实应用（"在沙发左侧放置一盏虚拟台灯"）。

交互式可编辑场景------从"重建"到"共创"

通过将三维模型与大语言模型的推理能力深度结合，未来的三维场景将成为可实时交互、可自然语言编辑的"数字孪生画布"。

自然语言驱动的场景编辑

用户可使用自然语言直接操控三维场景，如发出"将汽车涂成红色并向前移动五米"的指令。系统需理解指令的语义、解析空间关系、预测合理的物理状态变化，并在三维模型中精确执行。这要求重建模型具备逆向解构与条件生成的能力。

交互式世界模型作为具身智能基座

这一方向直接指向由前馈重建模块驱动的交互式世界模型 的发展。此类模型可作为机器人、模拟环境与具身智能体的核心组件，使其能在行动前在内部世界模型中进行推理与规划。例如，机器人可通过模型预测"如果推动这个箱子，它将如何移动并影响周围环境"，从而制定更安全、高效的行动策略。

核心挑战

挑战维度	具体问题	可能的技术路径
跨模态对齐的精度	如何确保语言描述与三维几何的细粒度对齐？	发展三维视觉-语言对比学习；引入三维基础模型进行跨模态预训练。
动态场景的理解与预测	如何重建并预测动态交互下的场景变化？	融合物理引擎与生成模型；构建4D时空表征以编码运动与形变。
编辑的物理合理性	如何保证语言编辑指令产生物理合理的结果？	在重建中嵌入物理属性（质量、材质、刚柔性）；利用物理约束扩散模型进行编辑。
系统的高效实时性	如何实现多模态交互式系统的实时响应？	开发轻量化多模态融合架构；利用边缘计算与模型蒸馏技术。

8 Conclusion

本综述对前馈式三维重建 领域进行了系统性梳理。该范式通过单次前向传播直接从输入图像预测三维表征 ，从根本上解决了传统"逐场景优化"方法在可扩展性与效率上的瓶颈。我们以问题驱动 的分类体系组织该领域，揭示了一系列共享的核心挑战 ，包括特征增强、几何感知、模型效率、数据增强策略与时序建模。更重要的是，这些共同挑战揭示了现有方法背后共通的设计考量 ，例如在稀疏观测下的鲁棒性、几何保真度、计算效率及时序一致性。综述进一步阐明了不同方法如何通过差异化的架构选择与权衡来应对这些反复出现的难题。

在算法进展之外，我们将现有评测基准重新归类为几何导向型 与视觉导向型 两类，强调需要建立更严谨的评估协议，以将几何精度与感知保真度分离评估 。这一区分对于避免模型过度拟合视图合成指标至关重要。此外，我们综述了在自动驾驶、机器人、场景理解、视频生成等领域的实际应用，表明前馈式重建正从一种面向渲染的技术，演进为空间智能系统中更广义的三维感知基础架构。

尽管已取得显著进展，诸多挑战依然开放。未来研究可聚焦于标准化评测体系、可扩展的场景表示、几何一致性的提升，以及重建与生成模型、语义理解更深层次的融合 。我们希望本综述能为该领域提供一个结构化的全景视角，并助力未来研究朝着更鲁棒、可扩展、几何感知的三维重建系统迈进。