李飞飞团队新作：AI透视眼，穿越障碍看清你，渲染遮挡人体有新突破了

即使遮挡，也能渲染出高保真的 3D 人体。

AR/VR 、电影和医疗等领域都在广泛地应用视频渲染人类形象。由于单目摄像头的视频获取较为容易，因此从单目摄像头中渲染人体一直是研究的主要方式。Vid2Avatar、MonoHuman 和 NeuMan 等方法都取得了令人瞩目的成绩。尽管只有一个摄像头视角，这些方法仍能从新的视角准确地渲染人体。

不过，大多数现有的方法在渲染人体时都是针对较为理想的实验场景进行设计的。在这些场景中，障碍物几乎不存在，人的各个身体部分在每一帧中也都能全部展示出来。可这与现实场景大为不同。现实场景中常有多个障碍物，人体也会在移动过程中被障碍物遮挡。

大多数的神经渲染方法在处理现实世界的场景时都会因为遮挡而困难重重，其中一大原因就是缺乏监督。实际场景往往无法提供有关人体外观、形状和姿态的真实监督数据，因此模型需要根据现有的少量证据来推断其他信息，而这十分具有挑战性，尤其是大部分人体被遮挡的情况。

由于许多神经方法采用的基于点的渲染方案，当一个被遮挡和一个未被遮挡时，两个非常接近的坐标会在渲染输出上产生巨大差异。因此，那些未适应被遮挡场景的方法在遇到遮挡时经常会显示出不完整的人体，或者渲染出漂浮物和其他视觉上的错误。

最近，著名人工智能教授李飞飞在 X 上发布了有关 3D 人体渲染工作的新进展 ------ 一种名为 Wild2Avatar 的新模型，该模型即使在有遮挡的情况下仍然能够完整、高保真地渲染人体。

Wild2Avatar 是一种适用于有遮挡的野外单目视频的神经渲染方法。研究团队提出了遮挡感知场景参数化，将场景解耦为三个部分 ------ 遮挡、人体和背景，分别渲染这三个部分，并设计了新颖的优化目标。

论文地址：arxiv.org/pdf/2401.00...
项目地址：cs.stanford.edu/~xtiange/pr...

方法介绍

Wild2Avatar 可以为带有遮挡的野外单目视频渲染具有完整几何形状和高保真外观的 3D 人体。Wild2Avatar 模型的整体架构如下图 2 所示：

具体来说，Wild2Avatar 将遮挡物、人体和背景建模为三个独立的神经场，无论遮挡物如何，都能对人体进行清晰的三维重建。为此，该研究采用场景自分解技术，在倒球参数化（inverted sphere parametrization）的基础上，提出了遮挡感知场景参数化。

除了倒球参数化定义的第一个球外，该研究还引入了第二个内球，并将从摄像机到内球边缘的区域定义为遮挡区域。通过单独渲染这一区域，Wild2Avatar 成功将遮挡与场景的其他部分分离开来。

此外，为了确保高保真和完整地渲染人体，该研究提出通过像素光度损失、场景分解损失、遮挡解耦损失和几何完整性损失的组合来汇总三种渲染。

实验及结果

数据集

OcMotion：该数据集由人体与各种物体接触的室内场景组成，同时被这些物体部分遮挡。研究者从该数据集的 48 个视频中选用了 5 个，它们展示了不同程度的遮挡。他们从每个视频中只抽取了 100 帧来训练模型，并使用数据集提供的相机矩阵、人体姿态和 SMPL 参数来初始化优化过程。帧内的二进制人体分割掩码是通过「分割一切 (SAM)」获得的。

野外视频：研究者对两段真实世界的视频进行了额外的实验，其中一段是从 YouTube 下载的，另一段是研究团队使用手机摄像头拍摄的。他们从这两段视频中抽取了 150 帧进行训练，并使用 SLAHMR 获取了摄像机矩阵、人体姿势和 SMPL 参数。由于没有提供真实姿态，因此对这些视频的评估也表明了各种方法对不准确估计的稳健性。

被遮挡单目摄像头视频上的结果

图 5 比较了 Vid2Avatar 和 Wild2Avatar 在两个数据集上的渲染结果。