【CVPR2023】Re:InterHand：一个用于3D交互手部姿态估计的重光照数据集

这篇论文的标题是《A Dataset of Relighted 3D Interacting Hands》，作者是Gyeongsik Moon, Shunsuke Saito, Weipeng Xu, Rohan Joshi, Julia Buffalini, Harley Bellan, Nicholas Rosen, Jesse Richardson, Mallorie Mize, Philippe de Bree, Tomas Simon, Bo Peng, Shubham Garg, 和 Kevyn McPhail，他们来自Meta Reality Labs Research。

摘要

双手交互是分析中最具挑战性的信号之一，因为手的自相似性、复杂的关节和遮挡。尽管已经提出了几个双手交互分析的数据集，但它们都没有同时实现1) 多样化和逼真的图像外观，以及2) 多样化和大规模的地面真实(GT) 3D姿态。在这项工作中，我们提出了Re:InterHand，一个重光照的3D交互手数据集，实现了这两个目标。为此，我们使用了最先进的手部重光照网络和我们准确追踪的双手3D姿态。我们比较了我们的Re:InterHand与现有的3D交互手数据集，并展示了它的好处。我们的Re:InterHand可以在此处获取。

1. 引言

人类在日常对话或与物体互动时经常进行双手交互。手的自相似性、复杂的关节和尺寸小使得分析这种双手交互极具挑战性。特别是当分析系统的输入是单一图像时，问题变得更加困难，因为在大多数情况下，一只手的大部分被另一只手遮挡。

2. 相关工作

3D手部数据集：表格1显示了各种3D手部数据集的比较。
3D交互手部恢复：由于缺乏大规模数据集，早期工作基于拟合框架，该框架将3D手部模型拟合到几何观测上，如RGBD序列、手部分割图和密集匹配图。
重光照人类：有几项工作提出了重光照面部和身体的模型，但这些模型不是可动画的。为了实现可动画的重光照，Bi等人提出了一个深度可重光照外观模型，用于面部化身。

3. 数据集构建

图4展示了构建我们数据集的总体流程。它由两个阶段组成：捕获和重光照。

3.1 捕获阶段

捕获阶段从我们的多相机工作室捕获手部数据。我们捕获了10个主题的数据，如图5所示。我们捕获了两种类型的序列，峰值姿态和运动范围，遵循InterHand2.6M。峰值姿态是一个序列，包括从中性姿态过渡到预定义姿态，然后过渡回中性姿态。峰值姿态的目的是捕获尽可能多样化的姿态，包括极端姿态和最大手指弯曲。运动范围是一个序列，包括用最少的指令驱动的自然手部运动，例如挥手好像朋友过来一样。通过这种方式，我们可以捕获1) 从峰值姿态序列中捕获多样化的姿态，以及2) 从运动范围序列中捕获自然手部运动。

3.2 重光照阶段

在上述捕获阶段捕获数据后，我们为每个主题训练了一个重光照网络。我们使用NeuralAnnot的3D姿态从捕获阶段渲染两只手，并使用指定的相机参数。对于照明，我们使用了Gardner等人的2144张高分辨率环境贴图。

4. 数据集发布

我们的Re:InterHand数据集包括1) 重光照图像，2) 非二进制掩模，以及3) 3D手部模型拟合，如图7所示。重光照图像和非二进制前景掩模来自第3.2节，3D手部模型拟合来自第3.1节。我们从10次捕获中分割出7次捕获用于训练集，剩余的3次捕获用于测试集。

5. 实验

对于所有实验，我们报告右手相对于顶点误差(RRVE)，这是估计的和GT 3D网格的两只手之间的欧几里得距离（毫米），在对齐右手根部（即手腕）的平移后。请注意，先前工作的最广泛使用的指标[58, 22, 26]（MPVPE）是在分别对左右手的平移进行对齐后计算的；因此，他们的MPVPE没有考虑两只手之间的相对位置，而我们的RRVE确实考虑了。

6. 结论

我们提出了Re:InterHand数据集，它提供了高度逼真和多样化的交互手部图像及其相应的GT 3D手部。为此，我们使用了准确追踪的3D姿态、最先进的重光照网络和多个高分辨率环境贴图。我们希望我们的数据集可以使社区更接近野外的3D交互手部恢复。

局限性：我们的渲染图像在前臂区域有切口。这是因为我们的重光照网络只采用3D手部几何体，而不是全身的。我们认为这不是一个严重的问题，因为大多数3D手部分析系统都采用裁剪的手部图像，然后通过手部检测器进行处理，其中手部检测器可以在只有2D注释的大规模真实数据集上进行训练。我们还观察到，重光照图像中有时会出现伪影。这是因为重光照网络在单手数据上训练并在双手数据上测试，有时会导致姿态泛化失败。我们期待一个更好的重光照网络可以缓解这个问题。