3D人体建模的前沿探索：细数主流模型与技术进展

文章目录

一、前言
二、主要内容
- SMPL
- - 文献内容：
  - 文献信息：
- SMPLX
- - 文献内容：
  - 文献信息：
- STAR
- - 文献信息：
- SCAPE
- - 文献内容：
  - 文献信息：
- BfSNet
- - [3. 文献内容：](#3. 文献内容：)
- SMPLR
- - 文献内容：
  - 文献信息：
- [3D body scan anthropometric measurement](#3D body scan anthropometric measurement)
- - 文献内容：
  - 文献信息：
- [Graph-CNN for direct 3D human mesh vertex regression](#Graph-CNN for direct 3D human mesh vertex regression)
- - 文献内容：
  - 文献信息：
- [Voice-to-3D face geometry prediction](#Voice-to-3D face geometry prediction)
- - 文献内容：
  - 文献信息：
- [Fast 3D head reconstruction from multi-view images](#Fast 3D head reconstruction from multi-view images)
- - 文献内容：
  - 文献信息：
- [Automatic 3D human pose and shape estimation from images](#Automatic 3D human pose and shape estimation from images)
- - 文献信息：
- [Human Optical Flow](#Human Optical Flow)
- - 文献内容：
  - 文献信息：
- [Multi-Human Optical Flow](#Multi-Human Optical Flow)
- - 文献内容：
  - 文献信息：
- [3D Human Shape Reconstruction From Point Clouds](#3D Human Shape Reconstruction From Point Clouds)
- - 文献内容：
  - 文献信息：
- MagicMan
- - 文献内容：
  - 文献信息：
- [Self-supervised 3D human mesh recovery from noise](#Self-supervised 3D human mesh recovery from noise)
- - 文献内容：
  - 文献信息：
三、总结

一、前言

在当今的计算机视觉和人体建模领域，随着虚拟现实、动画、游戏以及医疗等应用的快速发展，如何精确地捕捉和重建人体形状和姿态成为一个重要课题。本篇博客将深入探讨几种主流的人体建模方法，包括SMPL、SMPLX、STAR等。这些模型为生成逼真的人体动画和实现高效的人体姿态分析提供了强大的工具支持，从而推动了相关技术的前沿进展。通过对这些模型的比较与研究，我们可以更好地理解其背后的技术逻辑与应用潜力。

二、主要内容

SMPL

SMPL A Skinned Multi-Person Linear Model

文献内容：

研究背景:
1. SMPL模型介绍： SMPL是一个学习得到的人体模型，能够准确地表示不同的人体形状和姿态依赖的形状变化，与现有的图形管线兼容，允许动画师控制，并可用于研究目的。
2. 研究目标： 创建一个能够代表不同人体形状、随姿态自然变形，并展示软组织运动的逼真动画人体模型，同时要求模型渲染速度快、易于部署，并与现有渲染引擎兼容。
研究方法:
1. 模型构建： SMPL是一个基于顶点的皮肤模型，通过学习包括静止姿态模板、混合权重、姿态依赖混合形状、身份依赖混合形状和从顶点到关节位置的回归器等参数来准确表示人体形状和姿态。
2. 姿态参数训练： 使用多姿态数据集训练姿态参数，包括姿态混合形状、皮肤权重和关节回归器矩阵。
3. 形状参数训练： 使用多形状数据集训练形状参数，通过主成分分析（PCA）获得平均形状和主形状方向。
4. 优化总结： 交替优化姿态参数和形状参数，使用梯度下降法最小化重建误差。
实验设计:
1. 模型评估： 通过定量评估和视觉评估来测试SMPL模型的准确性，包括模型泛化能力和姿态泛化能力。
2. 稀疏SMPL： 为了提高手部动画的直观性，通过限制每个顶点最多受4个关节影响来训练稀疏版本的SMPL模型。
3. 运行时性能： 测试SMPL模型在不同平台上的运行时性能，包括CPU和游戏引擎。
4. 与渲染引擎的兼容性： SMPL模型基于标准皮肤绑定，因此与现有3D动画软件兼容。
结果分析:
1. 定量评估： SMPL模型在模型泛化和姿态泛化方面均显示出较高的准确性，与BlendSCAPE模型相比，SMPL模型在相同数据集上训练后，能够更准确地拟合测试数据。
2. 视觉评估： SMPL模型能够自然地表示从不同姿态到软组织动态的广泛变化，即使在不同的人体形状下也能保持自然的变形。
3. 运行时性能： SMPL模型在CPU上的运行时性能优于其他模型，且能够实时渲染。
4. 兼容性： SMPL模型可以导出为FBX文件格式，并提供脚本在常见渲染系统中动画化模型，使得任何人都能逼真地动画化人体。
总体结论: SMPL模型是一个简单且标准化的体模型，能够捕获人体形状和姿态变化，同时保持了从数据中学到的变形模型的逼真度。通过大量数据训练，SMPL模型在保持简单性的同时，能够直接最小化顶点重建误差，从而在渲染效率和准确性方面均优于变形基础模型。此外，SMPL模型还扩展到动态软组织变形的建模，使其能够更真实地模拟人体运动。

文献信息：

标题: SMPL：一种皮肤多人员线性模型
作者: Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, Michael J. Black
所属机构: Max Planck Institute for Intelligent Systems, Tübingen, Germany; Industrial Light and Magic, San Francisco, CA
关键词: 人体形状，皮肤绑定，混合形状，软组织。

SMPLX

Expressive Body Capture 3D Hands, Face, and Body from a Single Image SMPL-X

文献内容：

研究背景:
1. 人体动作分析的需求： 为了分析人类的行为、互动和情感，需要从单目图像中计算出人体姿态、手部姿态和面部表情的3D模型。
2. 现有技术的局限性： 目前没有系统能够从单张图像中捕获人体、手和面部的完整3D表面，主要挑战包括缺乏适当的3D模型和丰富的3D训练数据。
3. SMPL-X模型的提出： 通过学习大量的3D扫描数据，创建了一个新的统一3D人体模型SMPL-X，该模型扩展了SMPL，增加了完全可动的手部和表情丰富的面部。
研究方法:
1. 统一模型SMPL-X： SMPL-X是一个新的3D人体模型，它联合建模了人体、面部和手部。该模型基于SMPL，并保留了SMPL的诸多优点，如与图形软件的兼容性、简单的参数化、小尺寸、高效、可微分等。
2. SMPLify-X： SMPLify-X是一种从单张RGB图像中拟合SMPL-X模型的方法。该方法首先使用OpenPose估计2D图像特征，然后将SMPL-X模型拟合到这些2D特征上。
3. 变分人体姿态先验： 通过变分自编码器学习了一个新的、性能更好的姿态先验，该先验是关键，因为从2D特征到3D姿态的映射是模糊的。
4. 碰撞惩罚器： 定义了一个新的碰撞惩罚项，该惩罚项比SMPLify中的近似方法更准确、更高效，并且保持可微分。
5. 深度性别分类器： 训练了一个深度性别分类器，自动检测性别，并确定使用哪种身体模型（男性、女性或中性）。
6. 优化： 通过多阶段优化方法，使用PyTorch和L-BFGS优化器进行优化，以适应SMPLify-X。
实验设计:
1. 评估数据集： 由于缺乏包含人体、手和面部真实形状的图像数据集，作者通过拟合和仔细筛选现有数据创建了一个评估数据集。
2. 定性和定量评估： 通过与最相关的模型SMPL、SMPL+H和Frank进行比较，使用EHF数据集对SMPL-X和SMPLify-X进行定性和定量评估。
结果分析:
1. 定性比较： SMPL-X模型能够从日常图像中有效地重建自然和表达性的身体、手和面部。
2. 定量评估： 通过在EHF数据集上拟合SMPL-X，使用严格的顶点到顶点误差度量，证明了更丰富的模型表达力能够降低误差。
3. 消融研究： 通过移除SMPLify-X中的某些组件，如性别特定模型、VPoser姿态先验和碰撞项，来评估它们对整体准确性的影响。
4. 与现有技术的比较： 与Frank模型相比，SMPL-X在面部和手部的表达力至少相似，且没有皮肤贴图伪影。
总体结论: 本文提出了SMPL-X模型和SMPLify-X方法，这些技术能够从单张RGB图像中捕获人体、手和面部的详细和表达性3D模型。通过实验验证，该方法在定性和定量评估中均表现出色，为从RGB图像中自动捕获人体动作、互动和情感的表达性提供了重要的一步。未来的工作将包括创建野外SMPL-X拟合的数据集，并学习直接从RGB图像回归SMPL-X参数的回归器。

文献信息：

标题: 从单张图像中捕获表达性人体：3D手部、面部和身体
作者: Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed A.A. Osman, Dimitrios Tzionas, Michael J. Black
所属机构: MPI for Intelligent Systems, Tübingen, DE; University of Pennsylvania, PA, USA
关键词: 3D人体姿态估计, 手部姿态估计, 面部表情建模, 单目图像, SMPL-X模型, SMPLify-X方法
文献链接: SMPL-X

STAR

STAR: Sparse Trained Articulated Human Body Regressor
### 文献内容：

研究背景:
1. SMPL模型的局限性： SMPL广泛用于3D人体姿态和形状的估计、合成和分析，但存在参数过多、依赖于全局混合形状等问题，导致模型过于复杂且容易过拟合。
2. STAR模型的提出： 为了解决SMPL的局限性，提出了STAR模型，该模型在保持SMPL优点的同时，通过引入稀疏和局部化的姿态校正混合形状，显著减少了模型参数数量，并提高了对新身体的泛化能力。
研究方法:
1. 模型训练： STAR模型采用与SMPL相似的顶点基础LBS模型，并补充了学习的形状和姿态校正函数。模型将身体形状分解为固有形状和姿态依赖变形，并为每个关节定义了姿态校正函数，这些函数基于姿态和形状参数。
2. 稀疏激活函数： 通过学习数据来确定每个关节影响的顶点子集，使用ReLU激活函数来选择相关顶点，从而实现稀疏和局部化的姿态校正。
3. 姿态和形状校正混合形状： STAR模型的姿态校正函数基于姿态和形状参数，通过非线性激活函数和回归矩阵来预测校正偏移量，从而实现对姿态依赖变形的稀疏和局部化建模。
实验设计:
1. 激活函数的训练： 通过训练，激活函数的输出变得更加稀疏，限制了关节可以影响的顶点数量，从而减少了模型参数。
2. 模型泛化能力： 在未见过的身体上评估模型泛化能力，STAR模型在训练数据相同的情况下，比SMPL模型具有更好的泛化性能。
3. 扩展训练数据： 通过结合CAESAR和SizeUSA数据集进行训练，STAR模型的泛化能力得到了进一步提升。
结果分析:
1. 激活函数的稀疏性： STAR模型通过学习得到的激活函数，使得每个关节影响的顶点更加稀疏，从而显著减少了模型参数数量，达到了SMPL模型参数的20%。
2. 模型泛化能力： 在未见过的测试数据上，STAR模型比SMPL模型具有更好的泛化性能，即使在参数数量远少于SMPL的情况下，STAR模型仍然能够更准确地拟合人体姿态和形状。
3. 扩展训练数据的影响： 结合CAESAR和SizeUSA数据集进行训练后，STAR模型在泛化能力上得到了进一步提升，这表明更多的训练数据有助于提高模型对人类身体形状变化的表达能力。
总体结论:

STAR模型通过引入稀疏和局部化的姿态校正混合形状，不仅减少了模型参数数量，还提高了对新身体的泛化能力。STAR模型是SMPL的一个紧凑替代品，具有更好的泛化性能，且易于集成到现有应用中。未来的工作将扩展此方法到包括表情和手部的SMPL-X模型。

文献信息：

标题: STAR:稀疏训练的人体关节回归器
作者: Ahmed A.A.Osman, Timo Bolkart, Michael J.Black
所属机构: Max Planck Institute for Intelligent Systems, Tübingen, Germany
关键词: 3D人体姿态估计，稀疏模型，姿态校正，形状参数化，SMPL模型
DOI: arXiv:2008.08535v1
文献链接: STAR

SCAPE

SCAPE: Shape Completion and Animation of People

文献内容：

研究背景:
1. 人体形状建模的重要性： 在图形应用中，获取特定人物的完整表面模型往往困难或不可能。即使在Cyberware全身扫描仪中，由于遮挡，也难以获得完整的表面数据。
2. 运动捕捉动画的挑战： 传统的基于标记的运动捕捉系统通常只提供表面少量点的稀疏测量，将这些稀疏数据映射到完全动画的3D表面模型是一个挑战。
3. SCAPE方法的提出： 本文介绍了SCAPE方法（Shape Completion and Animation for People）------一种基于数据驱动的人类形状建模方法，能够跨越不同主体形状和姿态的变化。
研究方法:
1. 姿态变形模型的学习： 通过一组密集的3D扫描数据学习姿态变形模型，该模型将变形分解为刚性和非刚性两部分，非刚性部分捕捉肌肉的弯曲等变形。
2. 身体形状变形模型的学习： 通过一组不同人在不同姿态下的3D扫描数据学习身体形状变形模型，使用主成分分析（PCA）表示身体形状变形的低维子空间。
3. 形状完成的应用： 将SCAPE模型应用于形状完成任务，包括部分视图完成和运动捕捉动画，能够仅用单个静态扫描和标记运动捕捉序列生成高质量的动态表面模型。
实验设计:
1. 数据获取与预处理： 使用Cyberware WBX全身扫描仪获取表面数据，通过一系列预处理步骤，包括模板匹配、非刚性注册、骨架重建等，生成训练数据集。
2. 姿态变形处理： 通过线性变换矩阵和旋转矩阵对三角形进行变形处理，结合刚性和非刚性变形元素，预测姿态变形。
3. 身体形状变形处理： 通过PCA学习身体形状变形空间，使用线性子空间表示身体形状的变化，预测身体形状变形。
结果分析:
1. 姿态变形模型的应用： 使用70个训练实例学习SCAPE姿态变形模型，能够捕捉肩部变形、二头肌膨胀和脊柱扭曲等肌肉变形，适用于实时动画。
2. 身体形状变形模型的应用： 使用45个实例学习SCAPE身体形状变形模型，结合姿态模型，能够合成不同人在各种姿态下的真实感扫描。
3. 形状完成的应用： 将SCAPE模型应用于部分视图完成和运动捕捉动画，能够生成与观察到的部分扫描一致且对未观察部分提供真实感完成的3D网格。
4. 运动捕捉动画的应用： 使用SCAPE模型从标记运动捕捉序列生成动画，能够为不同主体和姿态生成高质量的动态表面模型。
总体结论:

SCAPE方法通过学习姿态变形和身体形状变形的独立模型，能够生成跨越不同主体和姿态变化的高质量3D表面模型。该方法不仅能够用于形状完成，还能应用于部分视图完成和运动捕捉动画，为图形应用提供了强大的工具。

文献信息：

标题: 人体形状完成与动画（SCAPE: Shape Completion and Animation of People）
作者: Dragomir Anguelov, Praveen Srinivasan, Daphne Koller, Sebastian Thrun, Jim Rodgers, Stanford University; James Davis, University of California, Santa Cruz
所属机构: Stanford University, University of California, Santa Cruz
关键词: 合成演员，变形，动画，形态变化

BfSNet

Towards Accurate 3D Human Body Reconstruction from Silhouettes

3. 文献内容：

研究背景:
1. 人体属性推断： 从图像中推断人体属性是计算机视觉中的一个基本且未定问题。传统上，主要关注于估计人体关键点，包括2D和3D人体姿态的跟踪。现在，越来越多的研究兴趣转向从图像中恢复更丰富的形状表示，例如通过体素、高斯密度函数和可变形预定义网格来估计人体段、密集对应关系或3D体积描述。
2. 从合成数据学习： 卷积神经网络（CNN）在有大量、多样化数据集时表现最佳。然而，适合学习3D人体与2D图像之间映射的数据库相对较小，且扫描设备昂贵。例如，SizeUSA和CAESAR数据库包含几千个扫描，但仍然是受欢迎的大数据库。
3. 从视频中重建3D人体： Alldieck等人提出了从视频中重建3D人体的方法，类似于经典的形状从轮廓的方法。与之相比，我们的系统依赖于高效的深度学习方法，仅使用两个轮廓图像作为示例，并且计算结果在几秒内完成，而不是几分钟或几小时。
4. 分割鲁棒性： 在现实世界场景中，分割可能有噪声，这可能会影响从轮廓进行3D建模的准确性。通常，网络通过噪声增强（例如，轮廓边界噪声、遮挡）进行训练，以便它学习到更鲁棒于噪声的特征和映射。
5. 人体模型： 提出了几种可变形的参数化3D人体模型。其中最流行的是SCAPE（Shape Completion and Animation of People）方法，它是一个数据驱动的模型，分别学习姿势和形状（即表型）变化。SCAPE已被用于从图像（主要是轮廓）重建3D形状。最近，Loper等人提出了SMPL模型，现在是最新方法中的主导表示。
研究方法:
1. 概述： 我们提出了一种新颖的计算机视觉系统，用于从2D图像重建3D人体形状，目标是产生高度准确的人体测量数据。我们采用监督学习方法，通过卷积神经网络（CNN）将轮廓图像映射到3D人体形状。
2. SMPL模型背景： SMPL（Skinned Multi-Person Linear）模型是一个现实的、数据驱动的3D人体形状和姿态模型。SMPL使用CAESAR数据集进行训练，该数据集包含每个性别大约2000个扫描。SMPL将固有的3D身体形状和姿态分解。固有的3D身体形状变化是线性建模的，所有身体网格共享相同的预定义拓扑结构。
3. 训练损失： 我们使用以下损失项训练CNN：Lvertex（固定姿态下的顶点到顶点误差）、Lvol（网格体积误差）、Ljoints（关节位置误差）和Lpose（关节角度误差）。Lvertex的计算公式为：Lvertex = ∑(v_pred - v_true)²，其中v_pred和v_true分别是预测和真实的第j个3D顶点位置。Lvertex的权重与SMPL模型中顶点的平均面积成正比，以防止像手和脸这样的身体区域由于顶点密集而主导Lvertex。最终训练损失是所有损失项的加权和。
4. 分割和轮廓预处理： 我们通过语义图像分割计算轮廓。具体来说，从DeepLabv3+开始，我们在CAESAR扫描上微调模型，这些扫描渲染在随机背景图像前。在训练过程中，我们修改了损失，以便网络除了前景和背景标签外，还输出每个像素的置信度值。
5. 置信度估计： DeVries和Taylor提出了一种简单的修改，允许网络额外输出置信度，我们采用了这种方法。分割网络为每个像素和每个标签类型输出softmax类预测概率pi，并通过网络的置信度ci进行调整。
6. 生成合成训练数据： 我们描述了生成数百万个具有广泛身体形状、虚拟相机高度和倾斜度、自然身体姿态和真实分割错误的现实主义合成训练实例的过程。每个训练实例都与地面真实SMPL形状和姿态参数相关联，以及用于前视图和侧视图的轮廓图像。
7. 实现细节： 训练和评估代码使用Python和Keras框架实现，TensorFlow作为后端。我们使用640×360作为CNN输入分辨率，批量归一化和ReLU激活层。我们发现，更高的分辨率并没有显著提高结果的准确性。图像使用OpenGL预先渲染。
实验设计:
1. 定量结果： 我们首先呈现定量结果并与最近的方法进行比较。我们根据 $15$ 中的规范，从CAESAR $36$ 姿态和形状多变量分布中随机抽取500k网格。我们使用SMPL模型拟合CAESAR来采样其分布，但我们也限制形状基的数量为20。为了公平比较，我们重新实现了Dibra等人 $14$ 提出的基于CNN的方法，并训练它来预测SMPL模型参数。
2. 更具挑战性的数据集上的消融研究： 我们在第3.6节描述的具有挑战性的合成数据集上训练和评估了我们系统不同版本。具体来说，我们为训练生成了150万个{前视图，右视图}对，验证集2k个，测试集10k个。表2显示了我们管道消融版本结果的准确性，突出了每个组件对整体准确性贡献。
3. 与直接从RGB图像的方法比较： Kanazawa等人 $25$ 提出了一种从RGB图像直接估计3D人体模型的令人印象深刻的方法，代表了类似方法 $25,26,32,33$ 的最新水平。为了与 $25$ 进行公平比较，我们生成了一个具有已知身体形状的彩色渲染测试数据集。
4. 可重复性分析： 我们现在分析我们系统的可重复性，以了解分割错误如何导致身体形状估计的变化。图6显示了在消融研究的1000个测试示例上进行的可重复性分析，使用2V-Late-HW-Vol-Pose（无置信度输入）和2V-Late-HW-Conf-Vol-Pose（完整系统，带置信度输入）模型。有无置信度的平均顶点标准差分别为1.96mm和2.38mm，突出了我们系统的鲁棒性。
5. 定性结果： 图5展示了我们完整系统在网页图像上的定性结果。每个估计的3D模型的视觉形状都紧密反映了每对图像中人物的视觉形状。
结果分析:
1. 定量结果： 表1显示BfSNet在平均误差5mm或以下产生周长和长度估计，与最近的工作相比具有有利或可比的准确性。请注意，这个基准使用了完美的轮廓，没有相机高度或倾斜变化，也没有前视图中的自我遮挡（例如，手永远不会在臀部前面）。这种缺乏现实主义激励了我们更具挑战性的数据集。
2. 更具挑战性的数据集上的消融研究： 我们在第3.6节描述的具有挑战性的合成数据集上训练和评估了我们系统不同版本。表2显示了我们管道消融版本结果的准确性，突出了每个组件对整体准确性贡献。我们还训练并测试了我们对Dibra等人 $14$ 的实现，以公平比较。我们的系统产生的测量误差显著更准确（7.4mm vs. 11.7mm测量误差）。
3. 与直接从RGB图像的方法比较： Kanazawa等人 $25$ 提出了一种从RGB图像直接估计3D人体模型的令人印象深刻的方法，代表了类似方法 $25,26,32,33$ 的最新水平。为了与 $25$ 进行公平比较，我们生成了一个具有已知身体形状的彩色渲染测试数据集。图4突出显示了Kanazawa等人估计的平均身体形状，无论输入图像如何。相比之下，BfSNet产生了显著更准确的测量结果。
4. 可重复性分析： 我们现在分析我们系统的可重复性，以了解分割错误如何导致身体形状估计的变化。图6显示了在消融研究的1000个测试示例上进行的可重复性分析，使用2V-Late-HW-Vol-Pose（无置信度输入）和2V-Late-HW-Conf-Vol-Pose（完整系统，带置信度输入）模型。有无置信度的平均顶点标准差分别为1.96mm和2.38mm，突出了我们系统的鲁棒性。
5. 定性结果： 图5展示了我们完整系统在网页图像上的定性结果。每个估计的3D模型的视觉形状都紧密反映了每对图像中人物的视觉形状。
总体结论: 我们提出了一种新颖的方法，用于从2D二值轮廓中重建3D人体形状。与针对无约束姿态的人的方法不同，我们专注于估计准确且可重复的人体测量属性。结果表明，我们的系统比以前的方法更准确，具有良好的可重复性。我们改进的关键在于：(1)大规模合成数据生成，包括相机高度和倾斜度以及分割错误的真实变化；(2)多任务学习方法，同时估计身体形状、3D关节位置、3D姿态角度和身体体积；(3

SMPLR

SMPLR: Deep SMPL reverse for 3D human pose and shape recovery

文献内容：

研究背景:
1. 3D人体姿态和形状恢复的现状： 当前基于深度神经网络和统计可变形人体模型（如SMPL）的3D人体姿态和形状恢复技术存在困难，主要由于SMPL的无约束性质可能导致生成不真实的体网格。
2. SMPL参数回归的挑战： SMPL模型的多对一复杂函数特性以及数据噪声敏感性使得直接回归SMPL参数变得复杂，尤其是在大规模野外数据集中准确注释SMPL姿态和形状参数是不可行的。
研究方法:
1. SMPL模型回顾： SMPL是一个基于PCA形状组件和关节相对轴角旋转的统计参数函数，能够生成逼真的体网格。
2. SMPL逆向（SMPLR）： 本文提出将SMPL嵌入深度模型中，通过CNN预测3D关节作为中间表示，回归SMPL姿态和形状参数，然后在SMPL输出中重建3D关节和详细体网格。
3. 去噪自编码器（DAE）： 为了处理2D关节估计中的结构化误差，设计了一个DAE网络，能够将2D关节提升到3D，并部分恢复结构化误差。
实验设计:
1. 训练细节： 使用堆叠沙漏网络（SHN）作为CNN骨干，通过softmax交叉熵损失进行训练，所有模型和实验均在TensorFlow上实现，并在GTX 1080Ti上训练。
2. 数据集： 使用UP-3D、SURREAL和Human 3.6M三个数据集进行训练和测试。
3. 评估协议： 通过平均每个关节位置误差（MPJPE）来评估模型性能，同时报告生成体网格的表面点误差和投影到图像平面后的身体轮廓的平均交并比（IoU）。
结果分析:
1. 消融研究： 在SURREAL验证集上对模型的不同组件进行研究，发现DAE能够提升3D关节估计的准确性，SMPLR能够准确重建人体体网格。
2. 端到端训练： 通过端到端训练，模型在SURREAL和Human 3.6M数据集上取得了优于基于SMPL的最新技术的性能，分别提高了3.5毫米和25毫米。
3. 与最新技术的比较： 在Human 3.6M数据集上，本文的方法在两种评估协议下均超越了基于SMPL的最新技术，特别是在协议1下提高了超过25毫米。
4. 时间复杂度： 提出的网络在推理时的处理时间为每帧3FPS（每秒帧数），对于批量大小为1的情况。
总体结论:

本文提出了一种基于深度学习的框架，用于从静态RGB图像中恢复3D人体姿态和形状。该模型由SHN骨干、DAE和能够从稀疏数据中逆转SMPL的网络组成，能够准确重建人体体网格。通过实验发现，处理SHN输出关节的DAE能够去除结构化误差。此外，SMPL模型可以被逆转并用于恢复3D姿态和形状。最后，通过将SMPL相关误差反向传播通过SHN，利用SMPLR的能力在深度学习网络的训练中进行优化。在SURREAL和Human 3.6M数据集上评估了该提议，并分别在每个数据集上提高了基于SMPL的最新技术3.5毫米和25毫米。

文献信息：

标题: SMPLR: Deep SMPL Reverse for 3D Human Pose and Shape Recovery
作者: Meysam Madadi, Hugo Bertiche, Sergio Escalera
所属机构: Computer Vision Center, EdificiO, Campus UAB, 08193 Bellaterra (Barcelona), Catalonia, Spain; Dept. Mathematics and Informatics, Universitat de Barcelona, Catalonia, Spain
关键词: 3D Human Pose Estimation, SMPL, Deep Learning, Autoencoder, Denoising Autoencoder, CNN, 3D Shape Recovery
其他信息: arXiv:1812.10766v2 $cs.CV$

3D body scan anthropometric measurement

Anthropometric clothing measurements from 3D body scans

文献内容：

研究背景:
1. 人体测量学的重要性： 人体测量学如胸围、臀围或肩宽等信息对工业设计、服装设计、医学科学和人机工程学等领域至关重要。传统上，这些测量是通过物理方式使用卷尺手动完成的，但随着在线购物和个性化工具的兴起，对计算机化人体测量的需求日益增长。
2. 计算机化人体测量的挑战： 计算机化人体测量的主要挑战在于如何提供一个准确且无缝的体积模型，以便在模型表面进行重要测量。这涉及到不同传感器模态、姿态和遮挡区域的挑战。
研究方法:
1. 3D身体扫描： 使用商业点云扫描仪作为流程的第一阶段，捕获人体的3D点云数据。
2. 模型注册： 第二阶段是将预定义的身体模型拟合到捕获的点云上。本研究生成了一男一女两个SMPL库中的模型，并使用非刚性迭代最近点(ICP)算法进行拟合，该算法最小化点距离和局部刚度能量项的总能量。
3. 人体测量学测量： 第三阶段，在拟合模型表面测量多个周径路径，并使用非线性回归器提供人体测量学测量的最终估计值。研究扫描了194名男性和181名女性受试者，所提出的流程根据人体测量学的不同，提供了2.5毫米至16.0毫米的平均绝对误差。
实验设计:
1. 数据集和设置： 使用商业扫描仪收集了一组3D扫描数据，构成了NOMO 3D数据集，包含194名男性和181名女性的扫描。每个受试者由服装专家（裁缝）进行了实际的人体测量（男性15项，女性19项）。
2. 消融研究： 通过消融研究，探讨了在人体测量回归中添加多个表面测量（周径路径）的效果。结果表明，额外的路径总是提高准确性，且结果在3至9个表面周径路径时饱和。
结果分析:
1. 回归方法比较： 本研究比较了多种回归方法，包括线性回归、岭回归、逐步线性回归、弹性网回归、高斯过程回归、二元回归决策树、线性支持向量回归和非线性SVR。结果显示，即使是基本的线性回归器也表现良好，非线性SVR和高斯过程回归也表现良好，但最终选择了非线性SVR，因为它具有最佳的整体性能。
2. 平均绝对误差和成功率： 对于男性受试者，成功率从28%（踝围）到93%（颈围）不等；对于女性受试者，成功率从24%（踝围）到82%（颈围）不等。这些结果表明，所提出的流程在实践中是有效的，并且表明可以为服装行业构建一个经济实惠的扫描系统。
总体结论: 本研究提出了一种完整的处理流程，用于从3D身体扫描中获取人体测量学测量。流程包括商业点云扫描仪、预定义的身体模型拟合、非刚性ICP模型注册、周径路径特征计算和非线性回归人体测量学测量估计。根据测量的不同，流程为男性和女性受试者提供了2.5毫米至16.0毫米的平均绝对误差。未来的工作将对流程的每个步骤进行进一步的调查和细化，例如选择更好的表面特征、为慢速ICP算法寻找快速计算的替代方法以及改进扫描器和扫描程序。

文献信息：

标题: 从3D身体扫描获取人体测量学测量
作者: Song Yan, Johan Wirta, Joni-Kristian Kämäräinen
所属机构: Tampere University, NOMO Technologies Ltd
关键词: 人体测量学测量、3D身体模型、非刚性ICPq

Graph-CNN for direct 3D human mesh vertex regression

Convolutional Mesh Regression for Single-Image Human Shape Reconstruction

文献内容：

研究背景:
1. 人体姿态和形状估计问题： 本文针对从单张图像中估计3D人体姿态和形状的问题进行研究。先前的方法考虑使用SMPL参数模型，并尝试回归模型参数以得到与图像证据一致的网格。这种参数回归非常具有挑战性，与非参数解决方案相比，基于模型的方法在姿态估计方面表现不佳。
2. SMPL模型参数空间的依赖： 本文提出放松对模型参数空间的依赖，保留SMPL模板网格的拓扑结构，但直接回归网格顶点的3D位置，而不是预测模型参数。
研究方法:
1. 图像基础的CNN： 作为通用特征提取器，使用ResNet-50架构提取图像特征。
2. 图卷积神经网络（Graph CNN）： 以SMPL模板网格为基础，将图像特征嵌入到图中定义的顶点坐标上，通过一系列图卷积层处理这些特征，并回归变形网格的3D顶点坐标。
3. SMPL模型参数回归： 从回归的3D形状中，如果需要符合特定模型，可以通过多层感知器（MLP）从网格几何形状中可靠地回归SMPL模型参数。
4. 实现细节： 对于图卷积，使用Kipf等人的公式进行图卷积操作。对于图卷积层，使用残差连接以加速训练并提高输出形状的质量。此外，还考虑了相机参数的回归，并使用L1损失进行训练。
实验设计:
1. 数据集： 使用Human 3.6M和UP-3D数据集进行训练，并在Human 3.6M和LSP数据集上评估方法。
2. 训练细节： 使用ImageNet预训练的ResNet-50模型作为图像编码器，所有其他网络组件从头开始训练。使用Adam优化器和批量大小为16进行训练。
3. 评估方法： 通过3D姿态准确性和重建误差来评估回归的形状。
结果分析:
1. 回归目标的重要性： 通过在Human 3.6M数据集上评估回归形状，证明了非参数形状回归目标比直接回归模型参数更有优势。
2. 图卷积神经网络的优势： 通过与基于全连接层的回归方法比较，证明了图卷积神经网络在回归3D顶点坐标时的优越性。
3. 输入表示的灵活性： 通过RGB图像、部分分割和DensePose图像等不同类型的输入表示进行实验，证明了方法的灵活性和有效性。
4. 与最先进方法的比较： 在Human 3.6M数据集上，本文方法在姿态估计方面取得了最先进的结果。
总体结论: 本文提出了一种新的方法，通过图卷积神经网络直接回归3D网格顶点的位置，从而避免了直接回归模型参数的困难。该方法不仅在各种输入表示上优于直接回归模型参数的基线方法，而且在基于模型的姿态估计方法中取得了最先进的结果。未来的工作可以关注当前方法的局限性，如输出网格的低分辨率和恢复形状中缺失的细节，并探索这种非参数表示提供的机会，如捕获许多人体模型中缺失的方面，例如手部动作、面部表情、服装和头发。

文献信息：

标题: 单图像人体形状重建的卷积网格回归
作者: Nikos Kolotouros, Georgios Pavlakos, Kostas Daniilidis
所属机构: 宾夕法尼亚大学
关键词: 3D人体姿态估计，形状估计，图卷积神经网络，SMPL模型，单图像重建
DOI: arXiv:1905.03244v1
文献链接: arXiv:1905.03244v1

Voice-to-3D face geometry prediction

Cross-Modal Perceptionist: Can Face Geometry be Gleaned from Voices?

文献内容：

研究背景:
1. 人类感知的根本问题： 人的声音能否揭示面部几何形状？
2. 现有研究的局限性： 以往研究仅限于将声音转换为面部图像，但这种方法不可避免地涉及预测声音无法暗示的属性，如面部纹理、发型和背景。
3. 本研究的创新点： 本研究专注于重建3D面部，以更生理学为基础，专注于几何形状，而非图像域。
研究方法:
1. 数据集构建： 构建了一个包含配对声音和面部网格的新数据集Voxceleb-3D，使得有监督学习成为可能。
2. 知识蒸馏机制： 在3D面部扫描数据有限的情况下，研究是否仍能从声音中提取面部几何形状。
3. 分析框架： 提出了跨模态感知框架（CMP），在有监督和无监督学习设置下研究声音与面部几何形状之间的相关性。
4. 监督学习： 使用配对的声音和3DMM参数进行训练，通过L₂损失进行监督。
5. 无监督学习： 在没有配对声音和3D面部数据的情况下，使用知识蒸馏（KD）机制研究面部几何形状是否仍能从声音中提取。
实验设计:
1. 实验分析： 将核心问题分解为四个部分，并进行视觉和数值分析。
2. 主观评估： 通过主观偏好测试来量化输出差异。
结果分析:
1. 有监督学习： 通过有监督学习，我们能够从声音中预测出视觉合理的面部网格。
2. 无监督学习： 无监督学习框架能够预测出与参考面部形状相似的3D面部模型。
3. 主观评估： 主观评估结果表明，受试者显著偏好我们的模型预测结果。
4. 知识蒸馏： 在无监督学习中，通过知识蒸馏机制，我们能够验证声音和面部几何形状之间的相关性。
总体结论:
1. 研究发现： 本研究发现，3D面部可以从声音中大致重建，这为未来的人类中心交叉模态学习提供了可解释的基础。
2. 未来应用： 本研究为公共安全、游戏或虚拟现实系统中的个人头像生成、以及为除语音和面部图像验证之外的个人身份验证提供了潜在应用。

文献信息：

标题: 语音到3D面部的跨模态感知：声音能否揭示面部几何形状？
作者: Cho-Ying Wu, Chin-Cheng Hsu, Ulrich Neumann
所属机构: University of Southern California
关键词: 语音识别，面部几何，跨模态学习，知识蒸馏，3D面部重建
DOI: arXiv:2203.09824v1 $cs.CV$ 18 Mar 2022
参考文献: $1$ - $70$ （具体文献信息略）
项目页面: 请参见我们的项目页面。

Fast 3D head reconstruction from multi-view images

Instant Multi-View Head Capture through Learnable Registration

文献内容：

研究背景:
1. 多视角头像数据集捕获： 传统的3D头像数据集捕获方法耗时且分为两个步骤：多视角立体（MVS）重建和非刚性注册。为了简化这一过程，本文介绍了一种名为TEMPEH（Towards Estimation of 3D Meshes from Performances of Expressive Heads）的方法，直接从校准的多视角图像中推断出密集语义对应的3D头像。
2. 扫描数据集注册： 注册3D扫描数据集通常需要手动调整参数以平衡扫描表面的精确拟合和对扫描噪声及异常值的鲁棒性。TEMPEH在训练过程中联合注册3D头数据集，有效利用TEMPEH作为正则化器。
3. 多视角头像推断： TEMPEH基于体积特征表示，通过相机校准信息采样并融合每个视角的特征。为了处理部分遮挡和大范围捕获体积，TEMPEH使用了视图和表面感知的特征融合以及基于空间变换器的头定位模块。
研究方法:
1. 粗略头像预测： TEMPEH的粗略头像预测阶段输出一个中间3D头像Mc，然后通过细化阶段更新所有顶点位置，输出最终的网格Mr。这一过程允许在细化阶段利用Mc的表面属性进行多视图特征聚合和顶点细化。
2. 几何细化： TEMPEH在粗略特征采样阶段后进行表面感知的特征融合，通过加权平均和加权方差来融合特征，以考虑表面可见性。
3. 损失函数： TEMPEH的训练最小化点到表面的距离，以确保预测的网格与原始训练扫描紧密相似。此外，还添加了相对边缘正则化和注册误差损失函数，以防止重叠和自相交的面，并最小化到注册T的距离。
实验设计:
1. 捕获设置： 使用多相机主动立体捕获系统（3dMD LLC, Atlanta）进行数据捕获，该系统有八对灰度立体相机和八色相机。
2. 数据捕获： 收集了一个名为FaMoS（Facial Motion across Subjects）的多视角3D头数据集，包含95个受试者，每个受试者执行28个运动序列。
3. 训练数据： 在78个FaMoS受试者（70个训练，8个验证）的数据上训练TEMPEH。
4. 测试数据： 在15个FaMoS受试者的28个序列上对TEMPEH进行定性和定量评估。
结果分析:
1. 定性评估： TEMPEH在极端头部姿态下的颈部区域重建误差最低，并且头部形状更接近参考扫描。
2. 定量评估： TEMPEH预测的3D头部与参考扫描之间的点到表面距离的中位数误差为0.26mm，比当前最先进方法低64%。
3. 消融实验： 通过消融实验，发现表面距离损失和头部定位对于粗略头像推断至关重要。模型在没有头部定位或具有层次结构架构的情况下也能推断出具有较低误差的头部，但由于粗略阶段的表情初始化较差，重建的嘴唇区域等细节的保真度较低。
总体结论:

TEMPEH是一个从校准的多视角图像中预测整个3D头部的框架，其重建精度比现有技术低64%。通过直接从扫描中训练TEMPEH，使用空间变换器头部定位模块和表面感知的特征融合，TEMPEH能够快速（约0.3秒/头部）推断出密集对应的3D头部，无需扫描作为输入。这使得TEMPEH适用于需要高效捕获包含多人和多样化面部动作的大数据集的应用场景。

文献信息：

标题: 通过可学习的注册即时多视角头部捕获
作者: Timo Bolkart, Tianye Li, Michael J. Black
所属机构: MPI for Intelligent Systems, Tübingen; University of Southern California
关键词: 3D头部捕获, 多视角图像, 体积特征表示, 空间变换器, 3D网格推断
DOI: 未提供
文献链接: TEMPEH
代码/模型/数据: TEMPEH Resources

Automatic 3D human pose and shape estimation from images

Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image
### 文献内容：

研究背景:
1. 人体三维姿态估计问题： 从单张图片中估计人体的三维姿态是一个长期存在的问题，具有广泛的应用价值。大多数先前的方法只关注姿态，忽略了三维人体形状。
2. SMPL模型： 本文提出了一种全新的解决方案，该方案能够自动估计人体的三维姿态和形状，并从二维图像中捕获这两者。该方法分为两个步骤：首先使用基于卷积神经网络（CNN）的方法DeepCut预测二维人体关节位置；然后使用名为SMPL的统计人体形状模型拟合这些二维关节。
研究方法:
1. 使用胶囊近似人体： 为了防止身体部位之间的相互穿透，我们将人体表面近似为一组"胶囊"，每个胶囊具有半径和轴长。
2. 目标函数： 为了将三维姿态和形状拟合到CNN检测到的二维关节上，我们最小化一个目标函数，该函数是五个误差项的总和：基于关节的数据项、三个姿态先验和一个形状先验。
3. 优化： 我们假设相机平移和身体方向未知，但相机焦距或其粗略估计是已知的。我们通过最小化目标函数来拟合模型，采用分阶段的方法进行优化。
实验设计:
1. 定量评估： 使用两个公开可用的数据集：HumanEva-I和Human 3.6M进行三维姿态的定量评估，并与三种最先进的方法进行比较。
2. 定性评估： 在Leeds Sports Dataset（LSP）上进行定性分析，该数据集比HumanEva或Human 3.6M更具挑战性。
结果分析:
1. 定量评估： 在HumanEva-I数据集上，SMPLify方法在所有序列上都取得了最低的误差。在Human 3.6M数据集上，我们的方法同样取得了最低的平均三维误差。
2. 定性评估： 在LSP数据集上，SMPLify方法能够很好地估计人体姿态和形状。尽管LSP数据集在姿态、图像分辨率、服装、照明和背景方面比HumanEva或Human 3.6M更为复杂，但CNN仍然能够很好地估计二维姿态。
总体结论:

本文提出了一种名为SMPLify的全自动方法，用于从单张图片的二维关节估计三维人体形状和姿态。该方法使用CNN估计二维关节位置，然后将三维人体模型拟合到这些关节上。SMPLify使用了最近提出的SMPL身体模型，该模型捕捉了人体形状的相关性，极大地约束了拟合过程。我们利用这一特性定义了一个目标函数，并通过最小化模型投影关节与估计的二维关节之间的误差来直接优化姿态和形状。这种方法简单而非常有效，可以立即用于姿势和动画的摆设。我们在各种数据集上广泛评估了我们的方法，并发现SMPLify在性能上超过了最先进的方法。

文献信息：

标题: Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image
作者: Federica Bogo, Angjoo Kanazawa, Christoph Lassner, Peter Gehler, Javier Romero, Michael J. Black
所属机构: Max Planck Institute for Intelligent Systems, Tübingen, Germany; Microsoft Research; University of Maryland; University of Tübingen
关键词: 3D body shape, human pose, 2D to 3D, CNN

Human Optical Flow

Learning Human Optical Flow

文献内容：

研究背景:
1. 人体光流的重要性： 人体光流对于分析人类行为非常有用，但目前的光流算法通常被视为通用的、低层次的视觉问题，没有针对人体运动进行特别设计。
2. 现有数据集的不足： 用于人体运动估计的数据集和算法尚未得到足够关注，而真实场景中密集人体运动的准确捕获极为困难，缺乏真实标注数据。
3. 合成数据的潜力： 最近的研究表明，在合成数据上训练的光流方法在真实数据上具有较好的泛化能力，这激励了我们创建一个专门针对人体运动的数据集。
研究方法:
1. 人体光流数据集的创建： 使用SMPL身体模型和运动捕捉数据生成约十万种不同的人体形状，并将它们放置在随机室内背景中，模拟跑步、走路、跳舞等人类活动，创建了一个大型虚拟数据集。
2. 神经网络训练： 基于SPyNet使用该数据集训练了一个神经网络，该网络能够从图像对中估计人体光流场，并对网络进行了端到端的训练。
3. 网络结构： 网络由4个金字塔级别组成，每个级别在特定的图像分辨率上工作，通过学习不同级别的卷积层来预测光流残差，并将这些残差累加以产生完整的光流。
实验设计:
1. 数据集细节： 数据集包含135,153个训练帧和10,867个测试帧，分辨率为256×256，以支持神经网络训练。
2. 超参数设置： 使用Adam优化器，学习率为10^-6，β1=0.9，β2=0.999，批量大小为8，每个epoch运行4000次迭代，模型在Human Flow数据集上训练100个epoch。
3. 数据增强： 通过应用缩放、旋转、随机裁剪、添加高斯噪声和颜色抖动等变换来增强数据。
结果分析:
1. 性能比较： 在Human Flow数据集上，训练的网络比之前的方法平均端点误差(EPE)低30%，表明我们的方法在人体运动光流估计上优于现有技术。
2. 泛化能力： 我们的方法不仅在合成场景中表现良好，而且能够泛化到真实世界场景中的人体运动。
3. 实时性能： 我们的模型在NVIDIA TitanX上进行推理需要31ms，能够以32fps的速度实时运行，非常适合手机和嵌入式设备。
4. 网络大小： 由于采用了空间金字塔结构，我们的网络非常小，只有7.8MB的内存大小，包含420万个可学习参数，易于训练。
总体结论:
1. 数据集和方法的优势： 我们创建了一个包含真实人体形状运动图像及其真实光流标注的大型数据集，结合端到端训练的系统，我们的新方法在人体特定数据集上超越了现有的光流方法。
2. 未来工作方向： 计划模拟更微妙的人体运动，如面部和手部，生成包含多个互动人物和更复杂3D场景运动的训练序列，以及添加3D服装和配饰。
3. 应用前景： 我们的方法适用于实时应用，支持基于运动的界面，甚至可能在计算能力有限的设备上使用，如手机。

文献信息：

标题: 学习人体光流
作者: Anurag Ranjan, Javier Romero, Michael J. Black
所属机构: Max Planck Institute for Intelligent Systems Tübingen, Germany; Amazon Inc.
关键词: 人体光流，深度学习，数据集，神经网络，运动估计
DOI: 10.1109/ICCV.2019.00087
文献链接: HumanFlow

Multi-Human Optical Flow

Learning Multi-Human Optical Flow

文献内容：

研究背景:
1. 人类动作分析的重要性： 人类动作分析对于理解人类行为至关重要，光学流作为理解人类动作的重要特征，对于多种应用如行人分析、运动控制游戏、活动识别、人体姿态估计等具有重要作用。
2. 光学流研究的现状： 光学流通常被视为一个通用的、低级的视觉问题，但针对人类运动的光学流研究较少，且现有的光学流数据集不足以支持人类运动估计的研究。
研究方法:
1. 数据集构建： 本文开发了一个包含真实纹理和背景的人类运动光学流数据集，包括单人和多人场景，称为人类光学流数据集（Human Optical Flow dataset），由单人光学流数据集（SHOF）和多人光学流数据集（MHOF）组成。
2. 网络训练： 使用基于空间金字塔的网络架构，如SPyNet和PWC-Net，在这些数据集上训练光学流网络，以估计图像对中的人类运动场。
3. 性能评估： 通过在保留的测试数据上评估训练好的网络，证明了这些网络在人类场景上的光学流性能有显著提升，并且能够很好地泛化到真实图像序列。
实验设计:
1. 数据集详细信息： SHOF数据集包含135,153个训练帧和10,867个测试帧，MHOF数据集包含86,259个训练帧、13,236个测试帧和11,817个验证帧。
2. 数据增强： 通过应用缩放、旋转等变换和添加噪声来增强数据集，以提高在真实场景中的结果质量。
3. 网络训练细节： 使用预训练权重作为初始化，通过端到端训练最小化平均终点误差（EPE）来训练SPyNet和PWC-Net。
结果分析:
1. SHOF数据集上的比较： 在SHOF数据集上，fine-tuning SPyNet的性能比初始SPyNet提高了约43%，同时比现有的最先进方法提高了约30%。PWC-Net在SHOF上的性能没有进一步提升。
2. MHOF数据集上的比较： 在MHOF数据集上，fine-tuning SPyNet和PWC-Net都取得了性能提升，特别是在人类区域的像素上。与通用的流估计方法相比，MHOF数据集上训练的模型在人类对应的像素上表现更优。
3. 真实场景的泛化： 通过视觉比较和运动补偿强度（MCI）误差评估，证明了在真实场景中，MHOF数据集上训练的模型能够很好地泛化。
总体结论:
1. 数据集的贡献： 本文提供的单人和多人光学流数据集对于光学流网络的训练具有重要意义，能够提高网络在人类运动估计上的准确性。
2. 模型泛化能力： 训练好的模型不仅在数据集上表现优异，而且能够泛化到真实世界场景中的人类运动。
3. 未来工作展望： 未来的工作将扩展数据集以包含更多样化的服装和户外场景，并探索将这些数据集集成到端到端的动作识别系统中。

文献信息：

标题: 学习多人类光学流
作者: Anurag Ranjan, David T.Hoffmann, Dimitrios Tzionas, Siyu Tang, Javier Romero, Michael J.Black
所属机构: Max Planck Institute for Intelligent Systems, Germany; Amazon Inc.
关键词: 光学流, 人类动作分析, 数据集, 深度学习, 人体姿态估计
DOI: arXiv:1910.11667v2
文献链接: Human Optical Flow

3D Human Shape Reconstruction From Point Clouds

Skeleton-Aware 3D Human Shape Reconstruction From Point Clouds

文献内容：

研究背景:
1. 三维人体形状重建问题： 从点云中重建三维人体形状是一个挑战，因为人体形状维度高且具有大的关节。本文采用最新的参数化人体模型SMPL来降低学习空间的维度并生成平滑有效的重建。
2. SMPL参数学习的困难： SMPL参数，尤其是姿态参数，由于姿态表示的模糊性和局部性，不易学习。
3. 骨架感知的引入： 本文提出将骨架感知引入基于深度学习的SMPL参数回归中，以改善三维人体形状重建。
研究方法:
1. 点云特征学习： 使用PointNet++提取点云特征，然后将点云特征映射到骨架关节特征，最后映射到SMPL参数进行重建。
2. 注意力模块： 提出注意力模块(AM)来更好地将无序的点云特征映射到有序的骨架关节特征。
3. 骨架图模块： 提出骨架图模块(SGM)来提取更好的关节特征用于SMPL参数回归。
实验设计:
1. 数据集和评估指标： 在合成数据集、Dyna数据集、DFAUST数据集和Berkeley MHAD数据集上进行实验，使用平均顶点距离、点到顶点距离和顶点到点距离作为评估指标。
2. 消融研究： 通过消融研究评估了图聚合模块、注意力模块和骨架图模块对重建精度的影响。
3. 与最先进方法的比较： 将本文方法与3DCODED和SMPLify方法进行比较，展示了在Dyna数据集上的性能。
结果分析:
1. 骨架感知的引入： 通过引入骨架感知，本文方法在合成数据集和Dyna数据集上的性能优于3DCODED和SMPLify方法。
2. 骨架图模块的贡献： 骨架图模块能够提高SMPL参数回归的准确性，至少提升5mm。
3. 在线微调的效果： 在Dyna数据集上，通过在线微调，本文方法的性能得到了显著提升，适应了与合成数据集不同的新数据。
总体结论:

本文提出了一种端到端的学习框架，用于从点云中重建三维人体形状。主要技术贡献包括引入图聚合模块增强PointNet++提取更好的点云特征，提出注意力模块更好地映射无序点云特征到有序骨架关节特征，以及设计骨架图模块提取更好的关节特征用于SMPL参数预测。实验结果表明，所提出的模块能够显著提升重建精度。

文献信息：

标题: 从点云中重建骨架感知的三维人体形状
作者: Haiyong Jiang, Jianfei Cai, Jianmin Zheng
所属机构: 南洋理工大学, 新加坡; 蒙纳士大学信息技术学院
关键词: 三维重建, 点云, 骨架感知, SMPL模型, 深度学习

MagicMan

MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement

文献内容：

研究背景:
1. 单图像人体重建的局限性： 由于训练数据不足或缺乏全面的多视图知识，现有的单图像人体重建方法在泛化能力上存在不足。
2. 多视图扩散模型的重要性： 为了提高3D人体重建的质量，需要一个能够从单个参考图像生成高质量新视角图像的多视图扩散模型。
研究方法:
1. 条件扩散模型： 利用预训练的2D扩散模型作为生成先验，以提高泛化能力，同时使用参数化的SMPL-X模型作为3D身体先验，以增强3D感知。
2. 混合多视图注意力机制： 引入混合多视图注意力机制，以促进不同视图间的信息高效交换，包括在所有视图上进行的1D注意力和在选定视图上进行的3D注意力。
3. 几何感知双分支： 提出几何感知双分支，同时生成RGB图像和法线图，通过几何线索增强多视图一致性。
4. 迭代细化策略： 提出一种新的迭代细化策略，通过更新SMPL-X姿态的准确性并优化生成的多视图质量，减少由于SMPL-X估计不准确导致的不良形状问题。
实验设计:
1. 新视角合成： 通过与现有方法的比较，验证MagicMan在新视角合成任务上的性能。
2. 3D人体重建： 通过与现有方法的比较，验证MagicMan在3D人体重建任务上的性能。
3. 消融研究和讨论： 通过消融研究，分析混合注意力和双分支对多视图一致性的影响，并讨论迭代细化策略的有效性。
结果分析:
1. 新视角合成： MagicMan在新视角合成任务上显著优于现有方法，特别是在像素级和语义指标上。
2. 3D人体重建： MagicMan在3D人体重建任务上也表现出色，能够生成具有更好一致性和纹理的高质量人体网格。
3. 消融研究和讨论： 混合注意力机制能够生成多达20个一致的多视图图像，而几何感知双分支通过几何线索进一步增强了多视图一致性。迭代细化策略通过多视图图像优化SMPL-X姿态，显著提高了姿态准确性和生成的多视图一致性。
总体结论:

MagicMan通过利用图像扩散模型作为2D生成先验和SMPL-X模型作为3D身体先验，有效地从单个参考图像生成高质量、密集且一致的多视图人体图像。提出的混合多视图注意力机制、几何感知双分支和迭代细化策略共同解决了多视图一致性、几何细节捕捉和不良形状问题，为3D人体重建提供了理想的解决方案。

文献信息：

标题: MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement
作者: Xu He, Xiaoyu Li, Di Kang, Jiangnan Ye, Chaopeng Zhang, Liyang Chen, Xiangjun Gao, Han Zhang, Zhiyong Wu, Haolin Zhuang
所属机构: 深圳国际研究生院, 腾讯AI Lab, 香港科技大学, 斯坦福大学, 香港中文大学
关键词: 3D人体重建, 新视角合成, 扩散模型, 迭代细化, SMPL-X模型
DOI: arxiv:2408.14211v1
文献链接: arXiv: MagicMan

Self-supervised 3D human mesh recovery from noise

Self-supervised 3D Human Mesh Recovery from Noisy Point Clouds

文献内容：

研究背景:
1. 3D人体模型重建： 随着传感技术的发展，3D扫描人体变得越来越流行，这促使了对3D内容编辑、控制和动画技术的需求，通常涉及将3D人体扫描转换为参数化刚性表示。
2. 自监督学习方法： 传统的基于模型的拟合方法依赖于迭代最近点(ICP)策略，但这些方法通常需要良好的初始化以避免局部最小解。现有的基于学习的方法通常依赖于大量带有注释的数据集，且假设输入点云具有相对干净的表面，难以处理实际场景中的噪声和异常值。
研究方法:
1. 概率人体模型： 通过高斯混合模型(GMM)对输入点云的概率分布进行建模，其中GMM的质心是变形模板模型的顶点。
2. 网络结构： 网络结构采用PointNet++来回归模板模型的参数，并在前向传播中提出概率对应关联模块来更新后验概率。
3. 概率对应关联： 类似于EM优化过程中的E步骤，给定网络从前一次迭代预测的参数，更新输入点云条件下人体模型顶点的后验分布。
4. 自监督损失： 定义了一个新颖的自监督损失函数，该函数在后验概率条件下最小化变形模板与输入点云之间的差异。
5. 兼容完整和不完整点云： 与以往的方法不同，所提出的自监督方法可以自然地处理不完整的点云，成功来自于我们隐式对应关联的实现，我们不需要预测模板模型和输入点云之间的一对一对应关系。
6. 实现细节： 网络输入为2048顶点的点云，使用最远点采样从3D人体扫描中采样。在损失函数中，λo、λa和λβ分别设置为20.0、225.0和25.0。σitr初始化为0.1。
实验设计:
1. 数据集： 考虑了三个公共数据集：CAPE、FAUST和CMU Panoptic Point Cloud Dataset。
2. 人体形状和姿态重建比较： 与3D-CODED、IPNet和PTF等三种最先进的方法进行了比较，这些方法都是基于监督的方法。
3. 对应预测比较： 在FAUST数据集上与现有的对应匹配方法进行了比较。
4. 消融研究： 对所提出方法的几个关键组件进行了消融研究。
结果分析:
1. 人体形状和姿态重建： 所提出的方法在CAPE数据集上与现有的监督和无监督最先进方法相比，尤其是在噪声点云上的性能有显著提高。
2. 对应预测： 在FAUST数据集上，所提出的方法在Inter-class和Intra-class情况下都取得了最佳性能。
3. 消融研究： 通过消融研究验证了自监督损失的重要性，表明在使用自监督损失进行微调后，人体重建性能得到了显著提高。
总体结论:

本文提出了一种新颖的自监督方法，用于从噪声点云数据中重建人体形状和姿态。该方法通过概率对应关联模块和新颖的自监督损失函数，能够处理噪声和异常值，并在多个公共数据集上取得了优于现有最先进方法的性能。尽管存在一些局限性，如未解决碰撞问题，但该方法为3D人体重建提供了一种有效的自监督学习途径。

文献信息：

标题: 自监督3D人体网格从噪声点云恢复
作者: Xinxin Zuo, Sen Wang, Qiang Sun, Minglun Gong, Li Cheng
所属机构: University of Alberta, University of Toronto, University of Guelph
关键词: 自监督学习, 3D人体重建, 噪声点云, 概率对应关联, Gaussian Mixture Model
DOI: arXiv:2107.07539v2
文献链接: arXiv: Self-supervised 3D Human Mesh Recovery

三、总结

在本篇博客中，我们详细探讨了SMPL、SMPLX、STAR等多个人体形状和姿态建模方法的原理、研究方法、实验设计及其结果分析。这些模型在计算机视觉、动画和人体姿态重建领域的应用非常广泛，它们解决了人体形状捕捉和动画化的诸多技术难题，提供了对人体形状、姿态以及手部和面部的详细建模能力。

SMPL模型以其简洁和高效的姿态变形表示取得了较高的渲染效率和准确性，而SMPLX进一步扩展了手部和面部的控制能力，提供了更丰富的表达力。STAR模型则通过引入稀疏的姿态校正混合形状，显著减少了参数数量，同时提高了泛化性能。这些模型的发展展示了如何在保证模型复杂性与渲染性能之间找到平衡，以适应不同应用场景的需求。

未来的研究方向可能包括进一步优化这些模型以提高对各种形状和姿态的精确性和细节表现，扩展到更复杂的动态软组织模拟，以及通过深度学习和自监督学习的方法实现更快更准确的人体重建。