World-Grounded Human Motion Recovery via Gravity-View Coordinates

摘要

[1 引言](#1 引言)

[2 相关工作](#2 相关工作)

[3 方法](#3 方法)

[3.1 全局轨迹表示](#3.1 全局轨迹表示)

[3.2 网络设计](#3.2 网络设计)

[3.3 实现细节](#3.3 实现细节)

[4 实验](#4 实验)

[4.1 数据集和指标](#4.1 数据集和指标)

[4.2 全局运动恢复的比较](#4.2 全局运动恢复的比较)

[4.4 理解 GVHMR](#4.4 理解 GVHMR)

[4.5 运行时间](#4.5 运行时间)

[5 结论](#5 结论)

摘要

我们提出了一种从单目视频中恢复基于世界坐标系的人体运动的新方法。主要挑战在于定义世界坐标系的不确定性，因为不同的视频序列有不同的坐标系。以往的方法试图通过自回归方式预测相对运动来缓解这个问题，但容易出现累积误差。相反，我们提出在一种新的重力-视角 (GV) 坐标系中估计人体姿态，该坐标系由世界重力和相机视角方向定义。所提出的 GV 系统自然地对齐重力，并为每个视频帧提供唯一的定义，从而大大减少了学习图像-姿态映射的不确定性。估计的姿态可以使用相机旋转转换回世界坐标系，形成全局运动序列。此外，逐帧估计避免了自回归方法中的误差累积。在野外基准测试上的实验表明，我们的方法在相机空间和基于世界坐标系的设置中都能恢复更真实的运动，在精度和速度方面都优于现有方法。

1 引言

主要内容包括：

HMR 任务定义: HMR 旨在在一个考虑重力的世界坐标系中重建连续的 3D 人体运动。与相机坐标系中的传统运动捕捉不同，世界-地面运动更适合作为生成模型和物理模型的基础数据，例如文本到运动生成和人形机器人模仿学习。
现有方法的局限性: 大多数现有的 HMR 方法可以准确地从视频中恢复相机空间的人体运动，但将相机空间运动转换为世界空间时，结果可能不会对齐重力，并且平移和姿态中的误差会随时间累积，导致不合理的全局运动。
GVHMR 方法的提出: 为了解决上述问题，GVHMR 提出了一种新的方法，它估计每个帧的重力-感知人体姿态，然后使用重力约束将这些姿态组合起来，以避免沿重力方向的累积误差。P2
GVHMR 的设计动机: 该设计基于以下观察结果：对于任何图像中的人，人类都能够轻松地推断出重力-感知的人体姿态。此外，给定两个连续的帧，与完整的 3 自由度旋转相比，估计沿重力方向的 1 自由度旋转更容易、更鲁棒。
GVHMR 的核心思想: GVHMR 使用重力-视角 (GV) 坐标系来预测重力-感知的人体方向。它还提出了一种恢复算法来估计 GV 系统之间的相对旋转，从而使所有帧都对齐到一个一致的重力-感知世界坐标系中。
GVHMR 的优势: 由于 GV 坐标系，GVHMR 可以并行处理人体旋转。它使用了一个增强的 Transformer 模型来直接回归整个运动序列，并引入了一个掩码来限制每个帧的感受野，从而避免复杂的滑动窗口，并能够对无限长的序列进行并行推理。

2 相关工作

这部分回顾了与 HMR 任务相关的现有研究工作，并将其分为两个主要类别：
2.1. 相机空间人体运动恢复:

参数化人体模型: 介绍了几种使用参数化人体模型（如 SMPL）从单张图像或视频中恢复 3D 人体姿态和形状的方法。这些方法包括基于优化的方法和基于回归的方法，并讨论了各种改进技术，例如基于部件的推理、引入相机参数等。HMR 方法: 讨论了现有的 HMR 方法，它们将相机空间的人体运动转换为世界空间。这些方法通常使用相机姿态进行转换，但结果可能不会对齐重力，并且容易出现累积误差。
2.2. 世界-地面人体运动恢复:

传统方法: 介绍了一些需要额外设备（如地面平面校准或重力传感器）的传统方法来估计世界-地面人体运动。

基于单目视频的方法: 讨论了从单目视频中估计全局人体运动的几种方法，包括使用物理定律、预测全局轨迹和优化方法。并分析了这些方法的局限性，例如对场景信息或优化过程的依赖。

WHAM 方法: 重点介绍了 WHAM 方法，该方法使用自回归方式预测每帧的姿态和位移，但容易出现累积误差，并且在长期运动恢复中性能下降。

3 方法

这部分详细介绍了 GVHMR 方法的具体实现，包括全局轨迹表示、网络设计、实现细节等，；论文架构图如图2。主要内容包括：

3.1 全局轨迹表示

重力-视角 (GV) 坐标系: 为了解决世界坐标系定义的不确定性，GVHMR 引入了一种新的 GV 坐标系，该坐标系由世界重力和相机视角方向定义。GV 坐标系自然地对齐重力，并为每个视频帧提供唯一的定义。
**全局轨迹恢复:**GVHMR 首先估计每个帧的重力-感知人体姿态，然后使用相机旋转将这些姿态转换回世界坐标系，形成全局运动序列。这种方法避免了自回归方法中的累积误差，并确保了全局运动的重力一致性。

3.2 网络设计

输入和预处理: GVHMR 首先对输入视频进行预处理，提取四类特征：人体边界框、2D 关键点、图像特征和相对相机旋转。
早期融合模块: 将这些特征映射到相同的维度，并通过元素级相加获得逐帧的 token。

相对 Transformer: 使用相对 Transformer 处理 token，并引入旋转位置编码 (RoPE) 来关注相对位置特征。
注意力掩码: 实现了一个感受野限制的注意力掩码，以提高网络在处理长序列时的泛化能力。
网络输出: 使用多任务 MLP 预测多个目标，包括弱透视相机参数、相机帧中的 SMPL 局部姿态和形状、静止标签、全局轨迹表示和根速度。
**后处理:**预测关节静止概率，并使用逆运动学方法细化全局运动，以减少物理上不合理的效应，例如足部滑动。

3.3 实现细节

网络架构: GVHMR 使用 12 层 Transformer 编码器，每个注意力单元有 8 个头，隐藏维度为 512。
训练数据: 在 AMASS、BEDLAM、H36M 和 3DPW 数据集的混合数据集上进行训练。
损失函数: 使用均方误差 (MSE) 损失和二元交叉熵 (BCE) 损失来训练模型。

总而言之，3 METHOD 部分详细介绍了 GVHMR 方法的具体实现，包括全局轨迹表示、网络设计、实现细节等，为理解和应用 GVHMR 方法提供了重要的参考。

4 实验

这部分介绍了 GVHMR 模型在可控人像动画任务中的实验结果和分析。主要内容包括：

4.1 数据集和指标

评估数据集: 使用 3DPW、RICH 和 EMDB 三个野外基准数据集来评估 GVHMR 的性能。
指标: 使用世界坐标和相机坐标两种指标来评估模型的性能，包括世界对齐的 MPJPE、世界 MPJPE、根平移误差、运动抖动、足部滑动、PA-MPJPE、MPJPE、PVE 和加速度误差等。

4.2 全局运动恢复的比较

与现有方法的比较: 将 GVHMR 与几种最先进的全局运动恢复方法进行比较，包括 WHAM、GLAMR、SLAHMR、TRACE 和 HMR2.0+DPVO。
**实验结果:**GVHMR 在所有指标上都取得了最佳性能，表明它能够更好地处理相对相机旋转估计中的误差，并生成更平滑和更真实的全局运动。

4.3 相机空间运动恢复的比较

与现有方法的比较: 将 GVHMR 与几种最先进的相机空间运动恢复方法进行比较，包括 SPIN、PARE、CLIFF、HybrIK、HMR2.0、ReFit、TCMR、VIBE、MPS-Net、GLoT、GLAMR、temporal TRACE、SLAHMR 和 PACE。
**实验结果:**GVHMR 在大多数指标上都取得了最佳性能，表明它能够更准确地估计相机空间中的人体运动，包括形状和平滑度。

4.4 理解 GVHMR

消融实验: 通过对 GVHMR 的各个组件进行消融实验，分析了每个组件对模型性能的影响。
实验结果: 实验结果表明，GV 坐标系、Transformer 模型、RoPE 和后处理步骤都对 GVHMR 的性能至关重要。

4.5 运行时间

实验结果: GVHMR 的运行时间比 WHAM 和 SLAHMR 更短，表明它更高效。

5 结论

我们介绍了GVHMR，一种从单目视频中回归基于世界的人体运动的新方法。GVHMR定义了一个重力视图（gravity - view， GV）坐标系来利用重力先验和约束，避免沿重力轴累积误差。通过将相对变压器与RoPE结合，GVHMR在推理过程中处理任意长度的序列，而不需要滑动窗口。广泛的实验表明，GVHMR在各种基准测试中优于现有方法，在相机空间和世界接地指标中实现了最先进的精度和运动合理性

论文地址：https://arxiv.org/abs/2409.06662