学习动态人类在几分钟内的神经体素表示

陈耕* 彭思达* 洪振 X u ∗ {\mathrm{{Xu}}}^{ * } Xu∗ 鲍军周晓卫

浙江大学 CAD&CG 国家重点实验室

图 1. 训练的收敛速度。给定一个表演者的单目视频，我们的模型可以在 ∼ \sim ∼ 5 分钟内学会生成逼真的新视角渲染，这比神经体 [58] 快 100 倍。

摘要

本文解决了从稀疏多视角视频快速重建动态人类自由视角视频的挑战。一些最近的工作将动态人类表示为一个标准神经辐射场（NeRF）和一个运动场，这些是通过可微分渲染从视频中学习的。但是，每场景优化通常需要数小时。其他通用NeRF模型利用从数据集中学习到的先验知识，并通过仅在新的场景上进行微调来减少优化时间，代价是视觉保真度。在本文中，我们提出了一种新颖的方法，从稀疏视角视频在几分钟内学习动态人类的神经体素视频，具有竞争力的视觉质量。具体来说，我们定义了一种新颖的基于部分的体素化人类表示，以更好地将网络的表征能力分布到不同的身体部位。此外，我们提出了一种新颖的二维运动参数化方案，以提高变形场学习的收敛速度。实验表明，我们的模型比之前的每场景优化方法学习速度快 100 倍，同时在渲染质量上具有竞争力。在单个 RTX 3090 GPU 上，对我们的模型进行训练，通常需要大约 5 分钟，视频有 512 × 512 {512} \times {512} 512×512 100 帧。代码将在我们的项目页面发布：https://zju3dv.github.io/instant_nvr。

1. 引言

制作人类表演者的体积视频具有许多应用，例如沉浸式远程呈现、电子游戏和电影制作。最近，一些方法 [ 58 , 92 ] \left\lbrack {{58},{92}}\right\rbrack [58,92] 已经证明，通过使用神经场景表示来表示动态人类，可以从稀疏的多视角视频中恢复高质量的体积视频。然而，它们通常需要在单个 GPU 上训练超过10小时。高昂的时间和计算成本限制了体积视频的大规模应用。泛化方法 [ 34 , 99 ] \left\lbrack {{34},{99}}\right\rbrack [34,99] 利用从动态人类数据集中学习到的先验知识，通过仅在新型人类表演者上进行微调来减少训练时间。这些技术可以通过牺牲一定的视觉保真度，将优化速度提高2-5倍。

*同等贡献

为了加快优化动态人类视图合成的神经表示的过程，我们分析了人体结构和运动的先验知识，并提出了一个新颖的动态人类表示方法，该方法在优化过程中实现了 100 x {100}\mathrm{x} 100x 的加速，同时保持了有竞争力的视觉保真度。具体来说，为了建模动态人类，我们首先使用一种新颖的运动参数化方案和反向线性混合蒙皮（LBS）[35] 将世界空间点转换到标准空间。然后，使用标准人类模型估计这些点的颜色和密度。

我们提出的表征方法的创新有两方面。首先，我们观察到不同的人体部位具有不同的形状和纹理复杂性。例如，人类表演者的面部通常比平坦纹理的躯干区域展现出更多的复杂性，因此需要更多的表征能力来描绘。基于这一点，我们的方法将标准人体分解为多个部分，并使用一组结构化的体素化NeRF [47]网络来表示人体，以使这些不同部分的收敛率达到同一水平。与单一分辨率的表征相比，基于部分的身体模型利用人体先验来有效地表示人体形状和纹理，启发式地将可变表征能力分布到空间复杂性变化的人体部分。

其次，我们注意到人体运动通常发生在表面附近而不是在体积内，也就是说，投影到参数化人体模型邻近区域上的近表面点具有相似的运动行为。因此，我们提出了一种新颖的运动参数化技术，该技术在二维域中建模三维人体变形。这个想法与传统的计算机图形学中的位移贴图和凹凸贴图 [ 14 , 15 ] \left\lbrack {{14},{15}}\right\rbrack [14,15] 类似，用于在二维纹理域上表示详细的变形。我们将位移贴图技术 [ 14 , 15 ] \left\lbrack {{14},{15}}\right\rbrack [14,15] 扩展到表示人体运动，通过将原本的三维变形场 [ 40 , 56 , 59 ] \left\lbrack {{40},{56},{59}}\right\rbrack [40,56,59] 限制在参数化人体模型的二维表面上，例如SMPL [43]。这种技术通过降低神经网络表征需要建模运动的维度，显著提高了变形场的收敛率。

实验表明，我们的方法在优化神经人类表征方面显著加快了速度，同时在渲染质量上与最近的人体建模方法具有竞争力。如图1所示，我们的模型可以在大约5分钟内从一个100帧的单目视频 512 × 512 {512} \times {512} 512×512 分辨率上训练出一个动态人体的体素视频，训练是在RTX 3090 GPU上进行的。

总结来说，我们的主要贡献是：

一种新颖的基于部分的体素化人体表示方法，用于更高效的人体建模。
一种2D运动参数化方案，用于更高效的形变场建模。
相比之前的神经人体表示，优化速度提高了100倍，同时保持了有竞争力的渲染质量。

2. 相关工作

隐式神经表示和渲染。已经有许多3D场景表示方法，例如多视角图像 [ 60 , 77 ] \left\lbrack {{60},{77}}\right\rbrack [60,77] ，纹理网格 [ 38 , 85 ] \left\lbrack {{38},{85}}\right\rbrack [38,85] ，点云 [ 1 , 61 ] \left\lbrack {1,{61}}\right\rbrack [1,61] 和体素 [ 42 , 75 ] \left\lbrack {{42},{75}}\right\rbrack [42,75] 。最近，一些方法 [ 11 , 41 , 44 , 51 , 76 , 96 , 103 ] \left\lbrack {{11},{41},{44},{51},{76},{96},{103}}\right\rbrack [11,41,44,51,76,96,103] 提出了隐式神经表示来表示场景，它们使用MLP网络预测3D空间中任意点的场景属性，例如占据 [ 44 , 67 ] \left\lbrack {{44},{67}}\right\rbrack [44,67] ，符号距离 [ 41 , 51 ] \left\lbrack {{41},{51}}\right\rbrack [41,51] 和语义 [ 23 , 103 ] \left\lbrack {{23},{103}}\right\rbrack [23,103] 。这使得它们能够描述连续且高分辨率的3D场景。为了进行新视角合成，神经辐射场（NeRF）[47] 将场景建模为密度和颜色的隐式场。NeRF通过体积渲染技术从图像中优化，产生了令人印象深刻的图像合成结果。许多工作在各个方面改进了NeRF，包括渲染质量 [ 3 , 4 ] \left\lbrack {3,4}\right\rbrack [3,4] ，渲染速度 [ 22 , 27 , 39 , 63 , 98 ] \left\lbrack {{22},{27},{39},{63},{98}}\right\rbrack [22,27,39,63,98] ，场景规模 [ 64 , 81 , 88 , 93 ] \left\lbrack {{64},{81},{88},{93}}\right\rbrack [64,81,88,93] 和重建质量 [ 50 , 89 , 95 ] \left\lbrack {{50},{89},{95}}\right\rbrack [50,89,95] 。一些方法 [ 18 , 37 , 52 , 59 ] \left\lbrack {{18},{37},{52},{59}}\right\rbrack [18,37,52,59] 将NeRF扩展到动态场景。

人类建模。重建高质量的三维人体模型对于合成自由视角的人类表演者视频至关重要。传统方法利用多视角立体技术 [ 24 , 71 , 72 ] \left\lbrack {{24},{71},{72}}\right\rbrack [24,71,72] 或深度融合 [ 13 , 17 , 79 ] \left\lbrack {{13},{17},{79}}\right\rbrack [13,17,79] 来重建人体几何结构，这需要复杂的硬件，如密集相机阵列或深度传感器。为了降低捕捉设备的要求，某些方法 [ 2 , 67 , 68 ] \left\lbrack {2,{67},{68}}\right\rbrack [2,67,68] 通过从包含大量三维真实人体模型的数据集中训练网络来学习人体先验知识，使它们能够即使从单张图片中推断人体几何结构和纹理。然而，由于训练数据的多样性有限，这些方法对于复杂姿态下的人体泛化能力不佳。最近，某些方法 [ 9 , 46 , 69 , 86 ] \left\lbrack {9,{46},{69},{86}}\right\rbrack [9,46,69,86] 将动态人体形状建模为隐式神经表示，并尝试从人体扫描中优化它们。另一系列工作 [ 28 , 30 , 34 , 36 , 40 , 56 , 58 , 65 , 91 , 92 , 94 , 100 − 102 , 104 ] \left\lbrack {{28},{30},{34},{36},{40},{56},{58},{65},{91},{92},{94},{100} - {102},{104}}\right\rbrack [28,30,34,36,40,56,58,65,91,92,94,100−102,104] 利用动态隐式神经表示和可微分渲染器从视频中重建 3 D 3\mathrm{D} 3D 人体模型。为了表示动态人体，Neural Actor [40] 通过线性混合蒙皮模型 [35] 扩展了神经辐射场。它额外采用残差变形场以更好地预测人体运动。为了克服输入人体姿态的不准确性， [ 78 , 92 ] \left\lbrack {{78},{92}}\right\rbrack [78,92] 在训练过程中优化人体姿态参数和人体表示。这些方法通常需要一个漫长的训练过程来生成高质量的人体模型。相比之下，我们引入了一种基于部件的体素化人体表示来建模标准人体，这显著加速了优化过程。尽管 [ 16 , 46 ] \left\lbrack {{16},{46}}\right\rbrack [16,46] 已经提出了基于部件的隐函数，但它们专注于人体形状建模，并没有表明基于部件的表示可以用来减少训练时间。

图 2. 所提表示法的概述。给定一个查询点 x \mathbf{x} x 在帧 t t t 上，我们在 SMPL 网格的每个人体部分上找到其最近的表面点，这给出了混合权重 w k {\mathbf{w}}{k} wk 和 UV 坐标 ( u k , v k ) \left( {{u}{k},{v}{k}}\right) (uk,vk)。考虑第 k k k 个部分。运动场包括一个逆线性混合皮肤（LBS）模块和一个残差变形模块。 (a) 逆 LBS 模块接收身体姿态 ρ \rho ρ、混合权重 w k {\mathbf{w}}{k} wk 和查询点 x \mathbf{x} x 作为输入，并输出变换后的点 x ′ {\mathbf{x}}^{\prime } x′。残差变形模块将多分辨率哈希编码（MHE）应用于 ( u k , v k , t ) \left( {{u}{k},{v}{k},t}\right) (uk,vk,t)，并使用一个多层感知器（MLP）网络回归残差平移 Δ x \Delta \mathbf{x} Δx，将其加到 x ′ {\mathbf{x}}^{\prime } x′ 上以获得规范点 x can {\mathbf{x}}^{\text{can }} xcan 。 (b) 然后我们将 x can {\mathbf{x}}^{\text{can }} xcan 输入到第 k k k 个人体部分的网络中，预测密度 σ k {\sigma }{k} σk 和颜色 c k {\mathbf{c}}{k} ck。使用 { ( σ k , c k ) } k = 1 K {\left\{ \left( {\sigma }{k},{\mathbf{c}}{k}\right) \right\} }_{k = 1}^{K} {(σk,ck)}k=1K，我们选择密度最大的作为查询点的密度和颜色。

加速神经表示的优化。

许多可微渲染基础方法 [ 3 , 39 , 47 ] \left\lbrack {3,{39},{47}}\right\rbrack [3,39,47] 为每个场景优化一个独立的神经表示。优化过程通常需要在现代GPU上花费几个小时，这是耗时的且成本高昂的。受到多视角立体匹配 [72] 的启发，一些方法 [ 8 , 12 , 45 , 73 , 87 , 90 , 99 ] \left\lbrack {8,{12},{45},{73},{87},{90},{99}}\right\rbrack [8,12,45,73,87,90,99] 在多视角数据集上训练网络，以学习从输入图像中推断辐射场。这使得它们能够快速地对未见过的场景进行神经表示的微调。 [ 19 , 62 ] \left\lbrack {{19},{62}}\right\rbrack [19,62] 利用自动解码器 [51] 来捕获场景先验，以便进行高效的微调。 [5, 82] 使用元学习方法 [ 20 , 49 ] \left\lbrack {{20},{49}}\right\rbrack [20,49] 来初始化网络参数，从而提高训练速度。一些方法 [ 7 , 10 , 55 , 70 , 80 , 97 ] \left\lbrack {7,{10},{55},{70},{80},{97}}\right\rbrack [7,10,55,70,80,97] 试图设计支持高效训练的场景表示。 [21, 48, 74, 83] 通过设计编码技术增强了网络的近似能力。多分辨率哈希编码 [48] 为场景定义了多分辨率特征向量数组，并使用哈希技术 [84] 为每个输入坐标分配一个特征向量作为编码输入，这显著提高了训练速度。

3. 方法

本文旨在从捕捉动态人类的稀疏多视角视频快速创建3D视频。遵循Neural Actor [40] 的假设，我们认为相机是校准过的，并且为每张图像提供了人体姿态和前景人体遮罩。

在这一节中，我们构建了一个动态人类模型，该模型由基于部分的体素化人类表示和降维运动参数化方案（第3.1节）组成。然后，第3.2节讨论如何高效优化所提出的表示。最后，我们在第3.3节提供了实现细节。

3.1. 所提出的人类表示

如图2所示，我们的动态人类表示由运动参数化场和基于部件的体素化人类模型组成。（a）对于查询点 x \mathbf{x} x，运动参数化场首先使用逆LBS [35] 算法将其变换到规范空间对应 x can {\mathbf{x}}^{\text{can }} xcan ，通过将3D点参数化到2D UV坐标来预测残差形变 Δ x \Delta \mathbf{x} Δx。（b）然后， x can {\mathbf{x}}^{\text{can }} xcan 被输入到规范空间中的基于部件的体素化人类模型，以预测和聚合密度和颜色 ( σ , c ) \left( {\sigma ,\mathbf{c}}\right) (σ,c)，其中规范人体被分解为 K K K 个部分，每个部分都使用一个

MHE增强 [48] 的NeRF网络。

在2D表面域上的运动参数化。为了回归查询点 x \mathbf{x} x 的规范对应 x can {\mathbf{x}}^{\text{can }} xcan ，我们首先找到它在姿态SMPL网格上的最近表面点 p \mathbf{p} p。使用[40]中的策略，从SMPL模型中获得表面点 p \mathbf{p} p 的混合权重 w \mathbf{w} w 和UV坐标 ( u , v ) \left( {u,v}\right) (u,v)。

给定混合权重 w \mathbf{w} w 和UV坐标 ( u , v ) \left( {u,v}\right) (u,v)，运动场将查询点 x \mathbf{x} x 映射到规范空间对应 x c a n {\mathbf{x}}^{can} xcan。运动场由逆LBS模块 [35] 和残差形变模块组成。给定一个查询点 x \mathbf{x} x 和混合权重 w \mathbf{w} w，我们使用逆LBS模块将其变换到未定位空间，该空间定义为：

Φ L B S ( x , w , ρ ) = ( ∑ j = 1 J w k , j G j ) − 1 x , (1) {\Phi }{\mathrm{{LBS}}}\left( {\mathbf{x},\mathbf{w},\mathbf{\rho }}\right) = {\left( \mathop{\sum }\limits{{j = 1}}^{J}{w}{k,j}{G}{j}\right) }^{-1}\mathbf{x}, \tag{1} ΦLBS(x,w,ρ)=(j=1∑Jwk,jGj)−1x,(1)

其中 ρ \mathbf{\rho } ρ 表示人体姿态， { G j } j = 1 J {\left\{ {G}{j}\right\} }{j = 1}^{J} {Gj}j=1J 是从 ρ \mathbf{\rho } ρ 派生出的变换矩阵 [43]。逆LBS算法的详细推导可以在补充材料中找到。

变换后的点 Φ L B S ( x , w , ρ ) {\Phi }{\mathrm{{LBS}}}\left( {\mathbf{x},\mathbf{w},\mathbf{\rho }}\right) ΦLBS(x,w,ρ) 然后通过残差形变模块变形到人体表面。具体来说，当前时间 t t t 首先与 UV 坐标 ( u , v ) \left( {u,v}\right) (u,v) 连接，作为帧 t t t 中查询点的参数化 x \mathbf{x} x。这种运动参数化受到传统计算机图形管道中的位移贴图和凹凸贴图技术 [ 14 , 15 ] \left\lbrack {{14},{15}}\right\rbrack [14,15] 的启发。它本质上利用人体形变先验将四维时空序列的维度降低到三维表面-时间域。然后，我们对 ( u , v , t ) \left( {u,v,t}\right) (u,v,t) 应用多分辨率哈希编码 [48] ψ res {\psi }{\text{res }} ψres ，并将编码后的输入通过网络 M L P res {\mathrm{{MLP}}}_{\text{res }} MLPres 传递以回归残差 δ \delta δ。帧 t t t 中的完整人体运动定义为：

Δ Φ ( u , v , t ) = MLP ⁡ res ( ψ res ( u , v , t ) ) (2) {\Delta \Phi }\left( {u,v,t}\right) = {\operatorname{MLP}}{\text{res }}\left( {{\psi }{\text{res }}\left( {u,v,t}\right) }\right) \tag{2} ΔΦ(u,v,t)=MLPres (ψres (u,v,t))(2)

Φ ( x , w , u , v , ρ , t ) = Φ L B S ( x , w , ρ ) (3) \Phi \left( {\mathbf{x},\mathbf{w},u,v,\mathbf{\rho },t}\right) = {\Phi }_{\mathrm{{LBS}}}\left( {\mathbf{x},\mathbf{w},\mathbf{\rho }}\right) \tag{3} Φ(x,w,u,v,ρ,t)=ΦLBS(x,w,ρ)(3)

* {\\Delta \\Phi }\\left( {u,v,t}\\right) \\text{.}

有两个主要观察结果启发我们使用 ( u , v , t ) \left( {u,v,t}\right) (u,v,t) 运动参数化。首先，我们观察到典型的人体运动发生在表面级别而不是体积级别。参数化模型中具有相似 UV 坐标的近表面点显示出相似的运动。利用这一先验和表面参数化 [ 14 , 15 ] \left\lbrack {{14},{15}}\right\rbrack [14,15]，我们可以将所需的四维体积运动降低到三维表面-时间域，极大地减少了形变网络必须学习的信息量。基于类似的想法，[6] 将表面运动扩散到整个三维空间。其次，简单直接的 ( x , y , z , t ) \left( {x,y,z,t}\right) (x,y,z,t) 编码会在显式定义的体素结构上引入四次方的内存开销，这在实际中是无法处理的。相反，通过将运动参数化为 ( u , v , t ) \left( {u,v,t}\right) (u,v,t)，我们可以将内存占用降低到更实用的立方级别。实验表明，运动参数化方案有效地降低了形变场的维度，从而大大提高了人体模型的收敛率。

基于部分的体素化人类表示。Muller等人[48]提出了多分辨率哈希编码（MHE），以改善隐式神经表示的近似能力和训练速度。MHE定义在一组显式的不同分辨率的体素网格上。给定一个输入坐标，它在每个级别上应用哈希编码，并查询相应的体素网格以对输入点的特征进行三次插值。然后，将多分辨率特征串联后输入到一个小的MLP网络来预测目标值。注意[48]将同一点的多分辨率哈希编码特征串联起来，以减轻哈希冲突的影响，而我们的基于部分的体素化人类表示引入了空间变化的分辨率，以有效地编码具有不同复杂性的身体部位。

与 [ 40 , 56 ] \left\lbrack {{40},{56}}\right\rbrack [40,56]使用单个神经辐射场（NeRF）来表示规范人类模型的方法不同，我们将人体分解为具有不同复杂性的多个部分，并采用结构化的MHE增强NeRF集合，其分辨率各不相同，作为身体表示。具体来说，我们根据参数化人体模型（如SMPL[43]）手动将人体划分为多个部分，如图2所示。注意，我们的方法也可以使用其他参数化人体模型 [ 54 , 66 ] \left\lbrack {{54},{66}}\right\rbrack [54,66]。我们使用SMPL模型[43]中定义的混合权重来分解SMPL模板网格 M = ( V , E ) \mathcal{M} = \left( {\mathcal{V},\mathcal{E}}\right) M=(V,E)，其中 V \mathcal{V} V表示顶点， E \mathcal{E} E表示边。设第 i i i个顶点 v i {v}{i} vi具有混合权重 w i {w}{i} wi，对于每个部分 k k k，我们定义 Ω k {\Omega }{k} Ωk为属于该部分的骨骼集合。详细的 Ω k {\Omega }{k} Ωk设置可以在补充材料中找到。第 k k k个部分的网格定义为 M k = ( V k , E k ) {\mathcal{M}}{k} = \left( {{\mathcal{V}}{k},{\mathcal{E}}_{k}}\right) Mk=(Vk,Ek)，其中：

V k = { v i ∣ argmax ⁡ w i ∈ Ω k } (4) {\mathcal{V}}{k} = \left\{ {{v}{i} \mid \operatorname{argmax}{w}{i} \in {\Omega }{k}}\right\} \tag{4} Vk={vi∣argmaxwi∈Ωk}(4)

E k = { ( v i , v j ) ∣ v i ∈ V k , v j ∈ V k } (5) {\mathcal{E}}{k} = \left\{ {\left( {{v}{i},{v}{j}}\right) \mid {v}{i} \in {\mathcal{V}}{k},{v}{j} \in {\mathcal{V}}_{k}}\right\} \tag{5} Ek={(vi,vj)∣vi∈Vk,vj∈Vk}(5)

为了回归查询点 x \mathbf{x} x 的密度和颜色，我们首先找到每个摆姿势的SMPL网格上人体各部分 M k {\mathcal{M}}{k} Mk 的最近表面点 p k {\mathbf{p}}{k} pk。采用文献 [40] 中的策略，从SMPL模型中获取表面点 p k {\mathbf{p}}{k} pk 的混合权重 w k {\mathbf{w}}{k} wk 和UV坐标 ( u k , v k ) \left( {{u}{k},{v}{k}}\right) (uk,vk)。利用 ( u k , v k , t ) \left( {{u}{k},{v}{k},t}\right) (uk,vk,t)，我们使用第3.1节中定义的运动参数化方案将查询点转换到第 k k k 个人体部分的空间。我们为第 k k k 部分预定义了多分辨率哈希编码函数 ψ k {\psi }{k} ψk 的参数。给定转换后的点，我们首先对转换点应用多分辨率哈希编码，然后将编码后的点 ψ k ( x ) {\psi }{k}\left( \mathbf{x}\right) ψk(x) 输入到一个小型的NeRF网络来预测密度和颜色。密度网络 M L P σ k {\mathrm{{MLP}}}{{\sigma }{k}} MLPσk 定义为：

( σ k , z ) = MLP ⁡ σ k ( ψ k ( x ) ) (6) \left( {{\sigma }{k},\mathbf{z}}\right) = {\operatorname{MLP}}{{\sigma }{k}}\left( {{\psi }{k}\left( \mathbf{x}\right) }\right) \tag{6} (σk,z)=MLPσk(ψk(x))(6)

其中 σ k {\sigma }{k} σk 表示密度， z \mathbf{z} z 是特征向量。然后，我们将特征向量 z \mathbf{z} z 和观察方向 d \mathbf{d} d 作为颜色回归的输入。类似于文献 [52]，为每个视频帧 t t t 引入一个潜在嵌入 ℓ t {\ell }{t} ℓt 来建模时间变化的表观。颜色网络定义为：

c k = MLP ⁡ c k ( z , d , ℓ t ) (7) {\mathbf{c}}{k} = {\operatorname{MLP}}{{\mathbf{c}}{k}}\left( {\mathbf{z},\mathbf{d},{\ell }{t}}\right) \tag{7} ck=MLPck(z,d,ℓt)(7)

最后，我们得到 K K K 预测 { ( σ k , c k ) } k = 1 K {\left\{ \left( {\sigma }{k},{\mathbf{c}}{k}\right) \right\} }_{k = 1}^{K} {(σk,ck)}k=1K。查询点 x \mathbf{x} x 的密度和颜色 ( σ , c ) \left( {\sigma ,\mathbf{c}}\right) (σ,c) 是基于以下计算得出的：

( σ , c ) = ( σ k ∗ , c k ∗ ) ,where k ∗ = argmax ⁡ k σ k . (8) \left( {\sigma ,\mathbf{c}}\right) = \left( {{\sigma }{{k}^{ * }},{\mathbf{c}}{{k}^{ * }}}\right) \text{,where }{k}^{ * } = \mathop{\operatorname{argmax}}\limits_{k}{\sigma }_{k}. \tag{8} (σ,c)=(σk∗,ck∗),where k∗=kargmaxσk.(8)

与 [ 40 , 56 ] \left\lbrack {{40},{56}}\right\rbrack [40,56] 使用单个NeRF网络表示身体的做法不同，我们的基于部分体素化人体表示法可以为不同复杂度的人体不同部分分配不同的模型参数密度，从而能够有效地分配网络的表征能力。实验表明，我们提出的身体表示法显著提高了收敛率。

3.2. 训练

通过最小化渲染图像和观察图像之间的差异，可以从稀疏多视图视频中学习所提出的表示。体绘制技术KaTeX parse error: Expected '}', got '\right' at position 24: ...brack{{32}，{47}\̲r̲i̲g̲h̲t̲ ̲\rbrack用于合成像素颜色。在帧 t t t处给出一个像素，我们发射一条相机光线，并沿光线采样点。然后，采样点被馈送到动态人体表示中，以预测它们的颜色和密度，最终累积到像素颜色中。在每次训练迭代中，我们从输入图像中随机采样一个图像块，并计算均方误差（MSE）损失和感知损失[31]来训练模型参数，这些参数定义为：

L r g b = ∥ I ~ P − I P ∥ 2 + ∥ F v g g ( I ~ P ) − F v g g ( I P ) ∥ 2 , (9) {L}{\mathrm{{rgb}}} = {\begin{Vmatrix}{\widetilde{I}}{P} - {I}{P}\end{Vmatrix}}{2} + {\begin{Vmatrix}{F}{\mathrm{{vgg}}}\left( {\widetilde{I}}{P}\right) - {F}{\mathrm{{vgg}}}\left( {I}{P}\right) \end{Vmatrix}}_{2}, \tag{9} Lrgb= I P−IP 2+ Fvgg(I P)−Fvgg(IP) 2,(9)

其中KaTeX parse error: Expected '}', got 'EOF' at end of input: ...idetilde{I}_{P}是渲染的图像补丁 ${I}*{P} 是地面真实图像补丁，以及是地面真实图像补丁，以及是地面真实图像补丁，以及{F}*{\\text{vgg}}$ 使用预训练的vgg网络提取图像特征[31]。消融研究表明，感知损失对于渲染质量和快速训练至关重要。

除了图像渲染损失外，还使用了两种正则化技术来促进神经表示的学习。首先，我们应用[4]中的正则化器将密度集中在人体表面。其次，残余变形场被正则化为小而平滑。补充材料中描述了损失条款的更多细节。

3.3. Implementation details

我们采用Adam优化器[33]，学习率为 5 e − 4 5{e}^{-4} 5e−4。我们在RTX 3090 GPU上训练模型，大约需要5分钟才能产生逼真的结果。我们的方法完全使用PyTorch框架实现[53]，以证明我们表示的有效性。它还使我们能够与PyTorch中实现的基线方法KaTeX parse error: Expected '}', got '\right' at position 28: ...{{34}，{56}，{58}\̲r̲i̲g̲h̲t̲\rbrack进行公平比较。补充材料中详细介绍了网络架构和超参数。

4. Experiments

4.1. Datasets

ZJU-MoCap [58] 数据集是视频人类建模的广泛使用基准。它提供了前景人体遮罩和SMPL参数。遵循 [92]，我们从该数据集中选择了6个实验对象 ( 377 , 386 , 387 , 392 , 393 , 394 ) \left( {{377},{386},{387},{392},{393},{394}}\right) (377,386,387,392,393,394) 进行实验。使用一个相机进行训练，其余相机用于评估。对于每个实验对象，我们每5帧选择1帧，并收集100帧用于训练。请参考补充材料以获取所有角色的详细实验设置。

MonoCap 数据集包含由 [57] 从DeepCap数据集 [26] 和Dy-naCap数据集 [25] 收集的四个多视角视频。它提供了相机参数和人体遮罩。 [57] 还额外估计了每张图像的SMPL参数。我们采用了 [57] 中的训练和测试相机视角设置。对于每个实验对象，选择100帧用于训练，并且我们每5帧采样1帧。所有序列的详细配置在补充材料中描述。

4.2. 与现有方法的比较

基线。我们将我们的方法与特定主体优化方法 [56-58, 92] 和通用方法 [ 34 , 99 ] \left\lbrack {{34},{99}}\right\rbrack [34,99] 进行比较。所有基线都是用纯PyTorch [53] 实现的，以便公平比较。由于篇幅限制，这里我们仅列出所有选定角色在数据集上的平均指标值。我们在补充材料中提供了更详细的定性和定量比较。

（1）针对特定主题的优化方法。神经体（Neural Body，NB）[58] 将一组潜在代码锚定到SMPL网格上，并从姿态潜在代码回归出辐射场。可动画化的NeRF（Animatable NeRF，AN）[56] 使用骨骼驱动框架对标准NeRF进行变形，并通过学习混合权重场来建模非刚性变形。[57] 在[56]的基础上增加了符号距离场和姿态依赖的变形场，以更好地建模动态人体的残余变形和几何细节。[92] 优化了在标准空间中的人体的体积表示，以及估计的人体姿态。

图3. 在ZJU-MoCap和MonoCap数据集上新颖视图合成的定性结果。我们的方法在仅需要 1 / 100 1/{100} 1/100的训练时间的情况下，产生了更好的渲染结果。底部一行列出了每种方法的训练时间。

（2）通用方法。PixelNeRF [99] 训练一个网络，从单张图像推断辐射场。神经人类表演者（Neural Human Performer，NHP）[34] 将图像特征锚定到SMPL网格的顶点，并使用变压器聚集时间特征，这些特征被解码成人体模型。对于每个评估的主题（例如MonoCap的一个主题），我们首先在其他数据集（例如ZJU-MoCap）上预训练网络，然后在该主题上微调网络直到收敛。

针对ZJU-MoCap数据集的结果。表1比较了我们的方法与NB [58]、AN [56]、PixelNeRF [99]、NHP [34]、HN [92]以及AS [57]在novel view synthesis方面的表现。我们提出的表示可以在大约5分钟内优化以产生逼真的渲染结果，而[56-58, 92]需要大约10小时来完成训练， [ 34 , 99 ] \left\lbrack {{34},{99}}\right\rbrack [34,99]需要10小时的预训练和1小时的微调。[57, 92]的表现优于[56, 58]。然而，由于它们的模型尚未收敛，它们都需要一个漫长的优化过程，并且在仅5分钟内无法产生合理的渲染结果。通用方法 [ 34 , 99 ] \left\lbrack {{34},{99}}\right\rbrack [34,99]在单目设置下无法渲染出具有合理形状的人类。我们的方法即使在仅训练了几分钟的情况下，也能在所有三个评估指标上取得可比较的结果，这显示了我们的新颖人类表示的有效性。我们在图3中展示了我们的方法和基线的定性结果。

针对MonoCap数据集的结果。表1总结了我们的方法与其他

|------------------|-------------------|--------|---------|-------------------------------------------|------------------|---------|-------------------------------------------|
| | Training Time | ZJU-MoCap ||| MonoCap |||
| | Training Time | PSNR ↑ | SSIM ^ | ${\\mathrm{{LPIPS}}}\^{ \* } \\downarrow$ | PSNR $\\uparrow$ | SSIM ^ | ${\\mathrm{{LPIPS}}}\^{ \* } \\downarrow$ |
| Ours | ~5 min | 31.01 | 0.971 | 38.45 | 32.61 | 0.988 | 16.68 |
| HumanNeRF [92] | 10 h | 30.66 | 0.969 | 33.38 | 32.68 | 0.987 | 15.52 |
| AS [57] | ~10 h | 30.38 | 0.975 | 37.23 | 32.48 | 0.988 | 13.18 |
| AN [56] | ~10 h | 29.77 | 0.965 | 46.89 | 31.07 | 0.985 | 19.47 |
| NB [58] | ~10 h | 29.03 | 0.964 | 42.47 | 32.36 | 0.986 | 16.70 |
| NHP [34] | ~1 h fine-tuning | 28.25 | 0.955 | 64.77 | 30.51 | 0.980 | 27.14 |
| PixelNeRF [99] | ~1 h fine-tuning | 24.71 | 0.892 | 121.86 | 26.43 | 0.960 | 43.98 |

表1。我们的方法与基线方法在ZJU-MoCap和MonoCap数据集上的定量比较。我们在最佳指标值下使用粗体文字，在次佳指标值下使用下划线文字。我们的方法实现了最快的训练速度，并展示了有竞争力的渲染结果。注意，NHP [34]和PixelNeRF [99]额外预训练了10小时。LPIPS* = LPIPS × 10 3 \times {10}^{3} ×103。

| (a) Ablation studies on proposed components ||||

	PSNR	SSIM	LPIPS*
Ours	32.09	0.982	23.47
Ours w/o Part	30.11	0.974	45.84
Ours w/o UV	31.40	0.979	30.99
Ours w/o Perc	30.55	0.976	44.33

| (b) Ablation studies on variants of ${\\mathrm{{MLP}}}_{\\text{res }}$ input. ||||

	PSNR	SSIM	LPIPS*
Ours	32.09	0.982	23.47
PE	31.94	0.981	26.76
XYZ-Code	31.32	0.979	31.19
XYZ-Pose	31.51	0.979	34.42

| (c) Ablation studies on the part parameters ||||

	PSNR	SSIM	LPIPS*
Ours	32.09	0.982	23.47
Table size ${2}\^{15}$	30.69	0.976	35.67
Table size ${2}\^{20}$	31.18	0.978	33.58

表2。针对ZJU-MoCap数据集377序列的消融研究定量结果。每个模型的描述可以在第4.3节中找到。所有模型都训练了5分钟。

MonoCap数据集上的基线。我们的模型由于采用了高效的基于部分的体素化人类表示和有效的运动参数化方案，再次实现了具有竞争力的视觉效果，同时仅需要 1 / 100 1/{100} 1/100 的训练时间。图3表明，我们的方法能够比 [56-58] 产生更好的外观细节。尽管 [56,58] 在给定4视图视频的情况下展示了令人印象深刻的渲染结果，但它们在单目输入上的表现不佳。[58] 使用结构化的潜在代码隐式地聚合时间信息，这在具有复杂人体运动的单目视频上可能无法很好地工作。[56] 使用可学习的混合权重场来建模人体运动，其维度较高，在单视图监督下可能难以良好收敛。 [ 57 , 92 ] \left\lbrack {{57},{92}}\right\rbrack [57,92] 展示了类似的视觉效果，并表明用LBS模型和残差形变表示人体运动特别有效，但他们的模型需要 100 x {100}\mathrm{x} 100x 更长的优化时间。

4.3. 抽象研究

我们在ZJU-MoCap数据集的377序列上进行了抽象研究，以分析所提出组件如何影响我们方法的性能和训练速度。

4.3.1 对提出组件的抽象研究。

表2(a)列出了对我们提出组件的消融研究的定量结果。所有模型都训练了5分钟。"Ours w/o Part"代表具有单个MHE增强NeRF [48]网络的典型人体，这显著降低了收敛率。为了保持比较的公平性，我们方法的这种变体具有与我们的方法 ( 286 M ) \left( {{286}\mathrm{M}}\right) (286M) 相似的参数数量 ( 302 M ) \left( {{302}\mathrm{M}}\right) (302M) 。然而，这种改变导致PSNR显著下降 1.98 d B {1.98}\mathrm{{dB}} 1.98dB ，因为其不理智的设计考虑所有部分具有相同的复杂性并浪费了表征能力。在"Ours w/o UV"中，残差形变网络 M L P res {\mathrm{{MLP}}}_{\text{res }} MLPres 以哈希编码 ( x , t ) \left( {\mathbf{x},t}\right) (x,t) 作为输入，由于严重的哈希冲突和有限的分辨率，观察到PSNR从 32.09 d B {32.09}\mathrm{\;{dB}} 32.09dB 下降到 31.40 d B {31.40}\mathrm{\;{dB}} 31.40dB ，训练时间相同。 "Ours w/o Perc"在训练期间没有采用感知损失，这反过来增加了LPIPS距离。这种比较说明了感知损失对视觉保真度的重要性。图4和图5提供了提出方法的变体之间的更直观的定性比较。

图4. 提出管道不同变体的收敛LPIPS和达到收敛所需时间的比较。每个模型的描述可以在第4.3节找到。提出的组件显著加速了训练并提高了渲染质量。LPIPS =LPIPS × 10 3 \times {10}^{3} ×103

图 5. 对 ZJU-MoCap 数据集的 377 序列进行消融研究。 "Ours w/o part" 表示我们使用了一个增强的 MHE NeRF 网络来表示整个身体。 "Ours w/o UV" 表示残差形变网络 MLP 以哈希编码 x t {x}_{t} xt 作为输入。 "Ours w/o Perc" 表示我们在训练过程中没有使用感知损失。

基于部分的体素化人类表示分析 -

部分。MHE [48] 定义了一个可训练特征的多分辨率哈希表，用于将输入坐标嵌入到高维空间。我们发现，仅仅增加哈希表的大小并不总是能在相同的训练时间内带来更好的性能，因为更大的哈希表会导致更高的内存消耗，并增加了每次训练迭代的时间。我们提出的基于部分的体素化人类表示允许我们根据人体部分的复杂性调整哈希表的大小，使我们能够有效地表示人体。表 2(a) 证明了基于部分的体素化人类表示的有效性。为了进一步验证这种表示，我们设计了两种变体，分别在全人部分中使用大小为 2 15 {2}^{15} 215 和 2 20 {2}^{20} 220 的哈希表。表 2© 总结了消融研究，表明在人体部分中改变模型参数可以提高性能。

分析运动参数化方案。表2(a)显示，当残差形变网络 M L P res {\mathrm{{MLP}}}{\text{res }} MLPres 以参数化 3 D 3\mathrm{D} 3D 的表面时间 ( u , v , t ) \left( {u,v,t}\right) (u,v,t) 坐标作为输入时，我们的模型比采用4D时空 ( x , t ) \left( {\mathbf{x},t}\right) (x,t) 作为输入时表现更好。注意 ( u , v , t ) \left( {u,v,t}\right) (u,v,t) 使得MHE比 ( x , t ) \left( {\mathbf{x},t}\right) (x,t) 内存效率高得多。为了进一步验证我们运动参数化的有效性，我们还设计了三种 M L P res {\mathrm{{MLP}}}{\text{res }} MLPres 输入的变体。（1）PE：位置编码 ( x , t ) \left( {\mathbf{x},t}\right) (x,t)。（2）XYZ-Code：哈希编码 x \mathbf{x} x 和每帧可学习的潜在码 [57]。（3）XYZ-Pose：哈希编码 x \mathbf{x} x 和姿态参数 [ 40 , 92 ] \left\lbrack {{40},{92}}\right\rbrack [40,92]。当以位置编码 ( x , t ) \left( {\mathbf{x},t}\right) (x,t) 作为输入时，我们为 M L P res {\mathrm{{MLP}}}_{\text{res }} MLPres 使用了更大的网络。表2(b)的结果表明，哈希编码 ( u , v , t ) \left( {u,v,t}\right) (u,v,t) 达到了最佳性能。

分析鲁棒性。为了评估所提出系统的鲁棒性，我们在"377"序列上测量了五次达到30的评价PSNR所需的时间。这得到了训练时间的平均值 76.00 s {76.00}\mathrm{\;s} 76.00s 和标准差 13.56 s {13.56s} 13.56s，显示出所提方法稳定性。

5. 局限性

尽管我们的方法能够从视频中快速重建高质量的人类模型，但仍存在一些挑战。首先，我们希望从稀疏的多视角图像中推断出人类模型。通过将我们提出的组件应用于像 [ 34 , 99 ] \left\lbrack {{34},{99}}\right\rbrack [34,99] 这样的通用方法，可能是解决这个问题的方向。其次，我们的方法目前依赖于准确的SMPL参数，这在野外环境中可能难以获得。利用 [ 78 , 92 ] \left\lbrack {{78},{92}}\right\rbrack [78,92] 中的技术优化人体姿态参数，同时训练人类虚拟形象，这是一个有趣的方向。第三，我们只能重建前景动态人类，而动态场景通常包括前景和背景实体。将我们的方法与ST-NeRF [29] 结合起来，快速重建包含前景和背景物体的动态场景可能是可行的。

6. 结论

我们介绍了一种新颖的动态人类表示方法，可以从视频中快速优化并用于生成人类表演者的自由视角视频。这种表示方法包括一个基于部分的三维体素化人类模型在标准空间中，以及一个运动参数化方案，将点从世界空间转换到标准空间。基于部分的三维体素化人类模型将人体分解为多个部分，并用一个增强的NeRF网络来表示每个部分，这有效地分配了网络的表征能力，并显著提高了训练速度。当预测查询点的运动时，运动场将点坐标重新参数化为2D表面级别的UV坐标，这有效地降低了网络需要建模的运动维度，从而提高了收敛率。实验证明，我们提出的表示方法可以在 1 / 100 1/{100} 1/100 的时间内优化，同时仍然保持有竞争力的渲染质量。我们展示了给定一个100帧的单目视频，分辨率为 512 × 512 {512} \times {512} 512×512，我们的方法可以在RTX 3090 GPU上以分钟为单位生成逼真的自由视角视频。

学习动态人类在几分钟内的神经体素表示