学习动态人类在几分钟内的神经体素表示
陈耕* 彭思达* 洪振 X u ∗ {\mathrm{{Xu}}}^{ * } Xu∗ 鲍军 周晓卫
浙江大学 CAD&CG 国家重点实验室
图 1. 训练的收敛速度。给定一个表演者的单目视频,我们的模型可以在 ∼ \sim ∼ 5 分钟内学会生成逼真的新视角渲染,这比神经体 [58] 快 100 倍。
摘要
本文解决了从稀疏多视角视频快速重建动态人类自由视角视频的挑战。一些最近的工作将动态人类表示为一个标准神经辐射场(NeRF)和一个运动场,这些是通过可微分渲染从视频中学习的。但是,每场景优化通常需要数小时。其他通用NeRF模型利用从数据集中学习到的先验知识,并通过仅在新的场景上进行微调来减少优化时间,代价是视觉保真度。在本文中,我们提出了一种新颖的方法,从稀疏视角视频在几分钟内学习动态人类的神经体素视频,具有竞争力的视觉质量。具体来说,我们定义了一种新颖的基于部分的体素化人类表示,以更好地将网络的表征能力分布到不同的身体部位。此外,我们提出了一种新颖的二维运动参数化方案,以提高变形场学习的收敛速度。实验表明,我们的模型比之前的每场景优化方法学习速度快 100 倍,同时在渲染质量上具有竞争力。在单个 RTX 3090 GPU 上,对我们的模型进行训练,通常需要大约 5 分钟,视频有 512 × 512 {512} \times {512} 512×512 100 帧。代码将在我们的项目页面发布:https://zju3dv.github.io/instant_nvr。
1. 引言
制作人类表演者的体积视频具有许多应用,例如沉浸式远程呈现、电子游戏和电影制作。最近,一些方法 [ 58 , 92 ] \left\lbrack {{58},{92}}\right\rbrack [58,92] 已经证明,通过使用神经场景表示来表示动态人类,可以从稀疏的多视角视频中恢复高质量的体积视频。然而,它们通常需要在单个 GPU 上训练超过10小时。高昂的时间和计算成本限制了体积视频的大规模应用。泛化方法 [ 34 , 99 ] \left\lbrack {{34},{99}}\right\rbrack [34,99] 利用从动态人类数据集中学习到的先验知识,通过仅在新型人类表演者上进行微调来减少训练时间。这些技术可以通过牺牲一定的视觉保真度,将优化速度提高2-5倍。
*同等贡献
为了加快优化动态人类视图合成的神经表示的过程,我们分析了人体结构和运动的先验知识,并提出了一个新颖的动态人类表示方法,该方法在优化过程中实现了 100 x {100}\mathrm{x} 100x 的加速,同时保持了有竞争力的视觉保真度。具体来说,为了建模动态人类,我们首先使用一种新颖的运动参数化方案和反向线性混合蒙皮(LBS)[35] 将世界空间点转换到标准空间。然后,使用标准人类模型估计这些点的颜色和密度。
我们提出的表征方法的创新有两方面。首先,我们观察到不同的人体部位具有不同的形状和纹理复杂性。例如,人类表演者的面部通常比平坦纹理的躯干区域展现出更多的复杂性,因此需要更多的表征能力来描绘。基于这一点,我们的方法将标准人体分解为多个部分,并使用一组结构化的体素化NeRF [47]网络来表示人体,以使这些不同部分的收敛率达到同一水平。与单一分辨率的表征相比,基于部分的身体模型利用人体先验来有效地表示人体形状和纹理,启发式地将可变表征能力分布到空间复杂性变化的人体部分。
其次,我们注意到人体运动通常发生在表面附近而不是在体积内,也就是说,投影到参数化人体模型邻近区域上的近表面点具有相似的运动行为。因此,我们提出了一种新颖的运动参数化技术,该技术在二维域中建模三维人体变形。这个想法与传统的计算机图形学中的位移贴图和凹凸贴图 [ 14 , 15 ] \left\lbrack {{14},{15}}\right\rbrack [14,15] 类似,用于在二维纹理域上表示详细的变形。我们将位移贴图技术 [ 14 , 15 ] \left\lbrack {{14},{15}}\right\rbrack [14,15] 扩展到表示人体运动,通过将原本的三维变形场 [ 40 , 56 , 59 ] \left\lbrack {{40},{56},{59}}\right\rbrack [40,56,59] 限制在参数化人体模型的二维表面上,例如SMPL [43]。这种技术通过降低神经网络表征需要建模运动的维度,显著提高了变形场的收敛率。
实验表明,我们的方法在优化神经人类表征方面显著加快了速度,同时在渲染质量上与最近的人体建模方法具有竞争力。如图1所示,我们的模型可以在大约5分钟内从一个100帧的单目视频 512 × 512 {512} \times {512} 512×512 分辨率上训练出一个动态人体的体素视频,训练是在RTX 3090 GPU上进行的。
总结来说,我们的主要贡献是:
-
一种新颖的基于部分的体素化人体表示方法,用于更高效的人体建模。
-
一种2D运动参数化方案,用于更高效的形变场建模。
-
相比之前的神经人体表示,优化速度提高了100倍,同时保持了有竞争力的渲染质量。
2. 相关工作
隐式神经表示和渲染。已经有许多3D场景表示方法,例如多视角图像 [ 60 , 77 ] \left\lbrack {{60},{77}}\right\rbrack [60,77] ,纹理网格 [ 38 , 85 ] \left\lbrack {{38},{85}}\right\rbrack [38,85] ,点云 [ 1 , 61 ] \left\lbrack {1,{61}}\right\rbrack [1,61] 和体素 [ 42 , 75 ] \left\lbrack {{42},{75}}\right\rbrack [42,75] 。最近,一些方法 [ 11 , 41 , 44 , 51 , 76 , 96 , 103 ] \left\lbrack {{11},{41},{44},{51},{76},{96},{103}}\right\rbrack [11,41,44,51,76,96,103] 提出了隐式神经表示来表示场景,它们使用MLP网络预测3D空间中任意点的场景属性,例如占据 [ 44 , 67 ] \left\lbrack {{44},{67}}\right\rbrack [44,67] ,符号距离 [ 41 , 51 ] \left\lbrack {{41},{51}}\right\rbrack [41,51] 和语义 [ 23 , 103 ] \left\lbrack {{23},{103}}\right\rbrack [23,103] 。这使得它们能够描述连续且高分辨率的3D场景。为了进行新视角合成,神经辐射场(NeRF)[47] 将场景建模为密度和颜色的隐式场。NeRF通过体积渲染技术从图像中优化,产生了令人印象深刻的图像合成结果。许多工作在各个方面改进了NeRF,包括渲染质量 [ 3 , 4 ] \left\lbrack {3,4}\right\rbrack [3,4] ,渲染速度 [ 22 , 27 , 39 , 63 , 98 ] \left\lbrack {{22},{27},{39},{63},{98}}\right\rbrack [22,27,39,63,98] ,场景规模 [ 64 , 81 , 88 , 93 ] \left\lbrack {{64},{81},{88},{93}}\right\rbrack [64,81,88,93] 和重建质量 [ 50 , 89 , 95 ] \left\lbrack {{50},{89},{95}}\right\rbrack [50,89,95] 。一些方法 [ 18 , 37 , 52 , 59 ] \left\lbrack {{18},{37},{52},{59}}\right\rbrack [18,37,52,59] 将NeRF扩展到动态场景。
人类建模。重建高质量的三维人体模型对于合成自由视角的人类表演者视频至关重要。传统方法利用多视角立体技术 [ 24 , 71 , 72 ] \left\lbrack {{24},{71},{72}}\right\rbrack [24,71,72] 或深度融合 [ 13 , 17 , 79 ] \left\lbrack {{13},{17},{79}}\right\rbrack [13,17,79] 来重建人体几何结构,这需要复杂的硬件,如密集相机阵列或深度传感器。为了降低捕捉设备的要求,某些方法 [ 2 , 67 , 68 ] \left\lbrack {2,{67},{68}}\right\rbrack [2,67,68] 通过从包含大量三维真实人体模型的数据集中训练网络来学习人体先验知识,使它们能够即使从单张图片中推断人体几何结构和纹理。然而,由于训练数据的多样性有限,这些方法对于复杂姿态下的人体泛化能力不佳。最近,某些方法 [ 9 , 46 , 69 , 86 ] \left\lbrack {9,{46},{69},{86}}\right\rbrack [9,46,69,86] 将动态人体形状建模为隐式神经表示,并尝试从人体扫描中优化它们。另一系列工作 [ 28 , 30 , 34 , 36 , 40 , 56 , 58 , 65 , 91 , 92 , 94 , 100 − 102 , 104 ] \left\lbrack {{28},{30},{34},{36},{40},{56},{58},{65},{91},{92},{94},{100} - {102},{104}}\right\rbrack [28,30,34,36,40,56,58,65,91,92,94,100−102,104] 利用动态隐式神经表示和可微分渲染器从视频中重建 3 D 3\mathrm{D} 3D 人体模型。为了表示动态人体,Neural Actor [40] 通过线性混合蒙皮模型 [35] 扩展了神经辐射场。它额外采用残差变形场以更好地预测人体运动。为了克服输入人体姿态的不准确性, [ 78 , 92 ] \left\lbrack {{78},{92}}\right\rbrack [78,92] 在训练过程中优化人体姿态参数和人体表示。这些方法通常需要一个漫长的训练过程来生成高质量的人体模型。相比之下,我们引入了一种基于部件的体素化人体表示来建模标准人体,这显著加速了优化过程。尽管 [ 16 , 46 ] \left\lbrack {{16},{46}}\right\rbrack [16,46] 已经提出了基于部件的隐函数,但它们专注于人体形状建模,并没有表明基于部件的表示可以用来减少训练时间。
图 2. 所提表示法的概述。给定一个查询点 x \mathbf{x} x 在帧 t t t 上,我们在 SMPL 网格的每个人体部分上找到其最近的表面点,这给出了混合权重 w k {\mathbf{w}}{k} wk 和 UV 坐标 ( u k , v k ) \left( {{u}{k},{v}{k}}\right) (uk,vk)。考虑第 k k k 个部分。运动场包括一个逆线性混合皮肤(LBS)模块和一个残差变形模块。 (a) 逆 LBS 模块接收身体姿态 ρ \rho ρ、混合权重 w k {\mathbf{w}}{k} wk 和查询点 x \mathbf{x} x 作为输入,并输出变换后的点 x ′ {\mathbf{x}}^{\prime } x′。残差变形模块将多分辨率哈希编码(MHE)应用于 ( u k , v k , t ) \left( {{u}{k},{v}{k},t}\right) (uk,vk,t),并使用一个多层感知器(MLP)网络回归残差平移 Δ x \Delta \mathbf{x} Δx,将其加到 x ′ {\mathbf{x}}^{\prime } x′ 上以获得规范点 x can {\mathbf{x}}^{\text{can }} xcan 。 (b) 然后我们将 x can {\mathbf{x}}^{\text{can }} xcan 输入到第 k k k 个人体部分的网络中,预测密度 σ k {\sigma }{k} σk 和颜色 c k {\mathbf{c}}{k} ck。使用 { ( σ k , c k ) } k = 1 K {\left\{ \left( {\sigma }{k},{\mathbf{c}}{k}\right) \right\} }_{k = 1}^{K} {(σk,ck)}k=1K,我们选择密度最大的作为查询点的密度和颜色。
加速神经表示的优化。
许多可微渲染基础方法 [ 3 , 39 , 47 ] \left\lbrack {3,{39},{47}}\right\rbrack [3,39,47] 为每个场景优化一个独立的神经表示。优化过程通常需要在现代GPU上花费几个小时,这是耗时的且成本高昂的。受到多视角立体匹配 [72] 的启发,一些方法 [ 8 , 12 , 45 , 73 , 87 , 90 , 99 ] \left\lbrack {8,{12},{45},{73},{87},{90},{99}}\right\rbrack [8,12,45,73,87,90,99] 在多视角数据集上训练网络,以学习从输入图像中推断辐射场。这使得它们能够快速地对未见过的场景进行神经表示的微调。 [ 19 , 62 ] \left\lbrack {{19},{62}}\right\rbrack [19,62] 利用自动解码器 [51] 来捕获场景先验,以便进行高效的微调。 [5, 82] 使用元学习方法 [ 20 , 49 ] \left\lbrack {{20},{49}}\right\rbrack [20,49] 来初始化网络参数,从而提高训练速度。一些方法 [ 7 , 10 , 55 , 70 , 80 , 97 ] \left\lbrack {7,{10},{55},{70},{80},{97}}\right\rbrack [7,10,55,70,80,97] 试图设计支持高效训练的场景表示。 [21, 48, 74, 83] 通过设计编码技术增强了网络的近似能力。多分辨率哈希编码 [48] 为场景定义了多分辨率特征向量数组,并使用哈希技术 [84] 为每个输入坐标分配一个特征向量作为编码输入,这显著提高了训练速度。
3. 方法
本文旨在从捕捉动态人类的稀疏多视角视频快速创建3D视频。遵循Neural Actor [40] 的假设,我们认为相机是校准过的,并且为每张图像提供了人体姿态和前景人体遮罩。
在这一节中,我们构建了一个动态人类模型,该模型由基于部分的体素化人类表示和降维运动参数化方案(第3.1节)组成。然后,第3.2节讨论如何高效优化所提出的表示。最后,我们在第3.3节提供了实现细节。
3.1. 所提出的人类表示
如图2所示,我们的动态人类表示由运动参数化场和基于部件的体素化人类模型组成。(a)对于查询点 x \mathbf{x} x,运动参数化场首先使用逆LBS [35] 算法将其变换到规范空间对应 x can {\mathbf{x}}^{\text{can }} xcan ,通过将3D点参数化到2D UV坐标来预测残差形变 Δ x \Delta \mathbf{x} Δx。(b)然后, x can {\mathbf{x}}^{\text{can }} xcan 被输入到规范空间中的基于部件的体素化人类模型,以预测和聚合密度和颜色 ( σ , c ) \left( {\sigma ,\mathbf{c}}\right) (σ,c),其中规范人体被分解为 K K K 个部分,每个部分都使用一个
MHE增强 [48] 的NeRF网络。
在2D表面域上的运动参数化。为了回归查询点 x \mathbf{x} x 的规范对应 x can {\mathbf{x}}^{\text{can }} xcan ,我们首先找到它在姿态SMPL网格上的最近表面点 p \mathbf{p} p。使用[40]中的策略,从SMPL模型中获得表面点 p \mathbf{p} p 的混合权重 w \mathbf{w} w 和UV坐标 ( u , v ) \left( {u,v}\right) (u,v)。
给定混合权重 w \mathbf{w} w 和UV坐标 ( u , v ) \left( {u,v}\right) (u,v),运动场将查询点 x \mathbf{x} x 映射到规范空间对应 x c a n {\mathbf{x}}^{can} xcan。运动场由逆LBS模块 [35] 和残差形变模块组成。给定一个查询点 x \mathbf{x} x 和混合权重 w \mathbf{w} w,我们使用逆LBS模块将其变换到未定位空间,该空间定义为:
Φ L B S ( x , w , ρ ) = ( ∑ j = 1 J w k , j G j ) − 1 x , (1) {\Phi }{\mathrm{{LBS}}}\left( {\mathbf{x},\mathbf{w},\mathbf{\rho }}\right) = {\left( \mathop{\sum }\limits{{j = 1}}^{J}{w}{k,j}{G}{j}\right) }^{-1}\mathbf{x}, \tag{1} ΦLBS(x,w,ρ)=(j=1∑Jwk,jGj)−1x,(1)
其中 ρ \mathbf{\rho } ρ 表示人体姿态, { G j } j = 1 J {\left\{ {G}{j}\right\} }{j = 1}^{J} {Gj}j=1J 是从 ρ \mathbf{\rho } ρ 派生出的变换矩阵 [43]。逆LBS算法的详细推导可以在补充材料中找到。
变换后的点 Φ L B S ( x , w , ρ ) {\Phi }{\mathrm{{LBS}}}\left( {\mathbf{x},\mathbf{w},\mathbf{\rho }}\right) ΦLBS(x,w,ρ) 然后通过残差形变模块变形到人体表面。具体来说,当前时间 t t t 首先与 UV 坐标 ( u , v ) \left( {u,v}\right) (u,v) 连接,作为帧 t t t 中查询点的参数化 x \mathbf{x} x。这种运动参数化受到传统计算机图形管道中的位移贴图和凹凸贴图技术 [ 14 , 15 ] \left\lbrack {{14},{15}}\right\rbrack [14,15] 的启发。它本质上利用人体形变先验将四维时空序列的维度降低到三维表面-时间域。然后,我们对 ( u , v , t ) \left( {u,v,t}\right) (u,v,t) 应用多分辨率哈希编码 [48] ψ res {\psi }{\text{res }} ψres ,并将编码后的输入通过网络 M L P res {\mathrm{{MLP}}}_{\text{res }} MLPres 传递以回归残差 δ \delta δ。帧 t t t 中的完整人体运动定义为:
Δ Φ ( u , v , t ) = MLP res ( ψ res ( u , v , t ) ) (2) {\Delta \Phi }\left( {u,v,t}\right) = {\operatorname{MLP}}{\text{res }}\left( {{\psi }{\text{res }}\left( {u,v,t}\right) }\right) \tag{2} ΔΦ(u,v,t)=MLPres (ψres (u,v,t))(2)
Φ ( x , w , u , v , ρ , t ) = Φ L B S ( x , w , ρ ) (3) \Phi \left( {\mathbf{x},\mathbf{w},u,v,\mathbf{\rho },t}\right) = {\Phi }_{\mathrm{{LBS}}}\left( {\mathbf{x},\mathbf{w},\mathbf{\rho }}\right) \tag{3} Φ(x,w,u,v,ρ,t)=ΦLBS(x,w,ρ)(3)
* {\\Delta \\Phi }\\left( {u,v,t}\\right) \\text{.}
有两个主要观察结果启发我们使用 ( u , v , t ) \left( {u,v,t}\right) (u,v,t) 运动参数化。首先,我们观察到典型的人体运动发生在表面级别而不是体积级别。参数化模型中具有相似 UV 坐标的近表面点显示出相似的运动。利用这一先验和表面参数化 [ 14 , 15 ] \left\lbrack {{14},{15}}\right\rbrack [14,15],我们可以将所需的四维体积运动降低到三维表面-时间域,极大地减少了形变网络必须学习的信息量。基于类似的想法,[6] 将表面运动扩散到整个三维空间。其次,简单直接的 ( x , y , z , t ) \left( {x,y,z,t}\right) (x,y,z,t) 编码会在显式定义的体素结构上引入四次方的内存开销,这在实际中是无法处理的。相反,通过将运动参数化为 ( u , v , t ) \left( {u,v,t}\right) (u,v,t),我们可以将内存占用降低到更实用的立方级别。实验表明,运动参数化方案有效地降低了形变场的维度,从而大大提高了人体模型的收敛率。
基于部分的体素化人类表示。Muller等人[48]提出了多分辨率哈希编码(MHE),以改善隐式神经表示的近似能力和训练速度。MHE定义在一组显式的不同分辨率的体素网格上。给定一个输入坐标,它在每个级别上应用哈希编码,并查询相应的体素网格以对输入点的特征进行三次插值。然后,将多分辨率特征串联后输入到一个小的MLP网络来预测目标值。注意[48]将同一点的多分辨率哈希编码特征串联起来,以减轻哈希冲突的影响,而我们的基于部分的体素化人类表示引入了空间变化的分辨率,以有效地编码具有不同复杂性的身体部位。
与 [ 40 , 56 ] \left\lbrack {{40},{56}}\right\rbrack [40,56]使用单个神经辐射场(NeRF)来表示规范人类模型的方法不同,我们将人体分解为具有不同复杂性的多个部分,并采用结构化的MHE增强NeRF集合,其分辨率各不相同,作为身体表示。具体来说,我们根据参数化人体模型(如SMPL[43])手动将人体划分为多个部分,如图2所示。注意,我们的方法也可以使用其他参数化人体模型 [ 54 , 66 ] \left\lbrack {{54},{66}}\right\rbrack [54,66]。我们使用SMPL模型[43]中定义的混合权重来分解SMPL模板网格 M = ( V , E ) \mathcal{M} = \left( {\mathcal{V},\mathcal{E}}\right) M=(V,E),其中 V \mathcal{V} V表示顶点, E \mathcal{E} E表示边。设第 i i i个顶点 v i {v}{i} vi具有混合权重 w i {w}{i} wi,对于每个部分 k k k,我们定义 Ω k {\Omega }{k} Ωk为属于该部分的骨骼集合。详细的 Ω k {\Omega }{k} Ωk设置可以在补充材料中找到。第 k k k个部分的网格定义为 M k = ( V k , E k ) {\mathcal{M}}{k} = \left( {{\mathcal{V}}{k},{\mathcal{E}}_{k}}\right) Mk=(Vk,Ek),其中:
V k = { v i ∣ argmax w i ∈ Ω k } (4) {\mathcal{V}}{k} = \left\{ {{v}{i} \mid \operatorname{argmax}{w}{i} \in {\Omega }{k}}\right\} \tag{4} Vk={vi∣argmaxwi∈Ωk}(4)
E k = { ( v i , v j ) ∣ v i ∈ V k , v j ∈ V k } (5) {\mathcal{E}}{k} = \left\{ {\left( {{v}{i},{v}{j}}\right) \mid {v}{i} \in {\mathcal{V}}{k},{v}{j} \in {\mathcal{V}}_{k}}\right\} \tag{5} Ek={(vi,vj)∣vi∈Vk,vj∈Vk}(5)
为了回归查询点 x \mathbf{x} x 的密度和颜色,我们首先找到每个摆姿势的SMPL网格上人体各部分 M k {\mathcal{M}}{k} Mk 的最近表面点 p k {\mathbf{p}}{k} pk。采用文献 [40] 中的策略,从SMPL模型中获取表面点 p k {\mathbf{p}}{k} pk 的混合权重 w k {\mathbf{w}}{k} wk 和UV坐标 ( u k , v k ) \left( {{u}{k},{v}{k}}\right) (uk,vk)。利用 ( u k , v k , t ) \left( {{u}{k},{v}{k},t}\right) (uk,vk,t),我们使用第3.1节中定义的运动参数化方案将查询点转换到第 k k k 个人体部分的空间。我们为第 k k k 部分预定义了多分辨率哈希编码函数 ψ k {\psi }{k} ψk 的参数。给定转换后的点,我们首先对转换点应用多分辨率哈希编码,然后将编码后的点 ψ k ( x ) {\psi }{k}\left( \mathbf{x}\right) ψk(x) 输入到一个小型的NeRF网络来预测密度和颜色。密度网络 M L P σ k {\mathrm{{MLP}}}{{\sigma }{k}} MLPσk 定义为:
( σ k , z ) = MLP σ k ( ψ k ( x ) ) (6) \left( {{\sigma }{k},\mathbf{z}}\right) = {\operatorname{MLP}}{{\sigma }{k}}\left( {{\psi }{k}\left( \mathbf{x}\right) }\right) \tag{6} (σk,z)=MLPσk(ψk(x))(6)
其中 σ k {\sigma }{k} σk 表示密度, z \mathbf{z} z 是特征向量。然后,我们将特征向量 z \mathbf{z} z 和观察方向 d \mathbf{d} d 作为颜色回归的输入。类似于文献 [52],为每个视频帧 t t t 引入一个潜在嵌入 ℓ t {\ell }{t} ℓt 来建模时间变化的表观。颜色网络定义为:
c k = MLP c k ( z , d , ℓ t ) (7) {\mathbf{c}}{k} = {\operatorname{MLP}}{{\mathbf{c}}{k}}\left( {\mathbf{z},\mathbf{d},{\ell }{t}}\right) \tag{7} ck=MLPck(z,d,ℓt)(7)
最后,我们得到 K K K 预测 { ( σ k , c k ) } k = 1 K {\left\{ \left( {\sigma }{k},{\mathbf{c}}{k}\right) \right\} }_{k = 1}^{K} {(σk,ck)}k=1K。查询点 x \mathbf{x} x 的密度和颜色 ( σ , c ) \left( {\sigma ,\mathbf{c}}\right) (σ,c) 是基于以下计算得出的:
( σ , c ) = ( σ k ∗ , c k ∗ ) ,where k ∗ = argmax k σ k . (8) \left( {\sigma ,\mathbf{c}}\right) = \left( {{\sigma }{{k}^{ * }},{\mathbf{c}}{{k}^{ * }}}\right) \text{,where }{k}^{ * } = \mathop{\operatorname{argmax}}\limits_{k}{\sigma }_{k}. \tag{8} (σ,c)=(σk∗,ck∗),where k∗=kargmaxσk.(8)
与 [ 40 , 56 ] \left\lbrack {{40},{56}}\right\rbrack [40,56] 使用单个NeRF网络表示身体的做法不同,我们的基于部分体素化人体表示法可以为不同复杂度的人体不同部分分配不同的模型参数密度,从而能够有效地分配网络的表征能力。实验表明,我们提出的身体表示法显著提高了收敛率。
3.2. 训练
通过最小化渲染图像和观察图像之间的差异,可以从稀疏多视图视频中学习所提出的表示。体绘制技术KaTeX parse error: Expected '}', got '\right' at position 24: ...brack{{32},{47}\̲r̲i̲g̲h̲t̲ ̲\rbrack用于合成像素颜色。在帧 t t t处给出一个像素,我们发射一条相机光线,并沿光线采样点。然后,采样点被馈送到动态人体表示中,以预测它们的颜色和密度,最终累积到像素颜色中。在每次训练迭代中,我们从输入图像中随机采样一个图像块,并计算均方误差(MSE)损失和感知损失[31]来训练模型参数,这些参数定义为:
L r g b = ∥ I ~ P − I P ∥ 2 + ∥ F v g g ( I ~ P ) − F v g g ( I P ) ∥ 2 , (9) {L}{\mathrm{{rgb}}} = {\begin{Vmatrix}{\widetilde{I}}{P} - {I}{P}\end{Vmatrix}}{2} + {\begin{Vmatrix}{F}{\mathrm{{vgg}}}\left( {\widetilde{I}}{P}\right) - {F}{\mathrm{{vgg}}}\left( {I}{P}\right) \end{Vmatrix}}_{2}, \tag{9} Lrgb= I P−IP 2+ Fvgg(I P)−Fvgg(IP) 2,(9)
其中KaTeX parse error: Expected '}', got 'EOF' at end of input: ...idetilde{I}_{P}是渲染的图像补丁{I}*{P} 是地面真实图像补丁,以及 是地面真实图像补丁,以及 是地面真实图像补丁,以及{F}*{\\text{vgg}}使用预训练的vgg网络提取图像特征[31]。消融研究表明,感知损失对于渲染质量和快速训练至关重要。
除了图像渲染损失外,还使用了两种正则化技术来促进神经表示的学习。首先,我们应用[4]中的正则化器将密度集中在人体表面。其次,残余变形场被正则化为小而平滑。补充材料中描述了损失条款的更多细节。
3.3. Implementation details
我们采用Adam优化器[33],学习率为 5 e − 4 5{e}^{-4} 5e−4。我们在RTX 3090 GPU上训练模型,大约需要5分钟才能产生逼真的结果。我们的方法完全使用PyTorch框架实现[53],以证明我们表示的有效性。它还使我们能够与PyTorch中实现的基线方法KaTeX parse error: Expected '}', got '\right' at position 28: ...{{34},{56},{58}\̲r̲i̲g̲h̲t̲\rbrack进行公平比较。补充材料中详细介绍了网络架构和超参数。
4. Experiments
4.1. Datasets
ZJU-MoCap [58] 数据集是视频人类建模的广泛使用基准。它提供了前景人体遮罩和SMPL参数。遵循 [92],我们从该数据集中选择了6个实验对象 ( 377 , 386 , 387 , 392 , 393 , 394 ) \left( {{377},{386},{387},{392},{393},{394}}\right) (377,386,387,392,393,394) 进行实验。使用一个相机进行训练,其余相机用于评估。对于每个实验对象,我们每5帧选择1帧,并收集100帧用于训练。请参考补充材料以获取所有角色的详细实验设置。
MonoCap 数据集包含由 [57] 从DeepCap数据集 [26] 和Dy-naCap数据集 [25] 收集的四个多视角视频。它提供了相机参数和人体遮罩。 [57] 还额外估计了每张图像的SMPL参数。我们采用了 [57] 中的训练和测试相机视角设置。对于每个实验对象,选择100帧用于训练,并且我们每5帧采样1帧。所有序列的详细配置在补充材料中描述。
4.2. 与现有方法的比较
基线。我们将我们的方法与特定主体优化方法 [56-58, 92] 和通用方法 [ 34 , 99 ] \left\lbrack {{34},{99}}\right\rbrack [34,99] 进行比较。所有基线都是用纯PyTorch [53] 实现的,以便公平比较。由于篇幅限制,这里我们仅列出所有选定角色在数据集上的平均指标值。我们在补充材料中提供了更详细的定性和定量比较。
(1)针对特定主题的优化方法。神经体(Neural Body,NB)[58] 将一组潜在代码锚定到SMPL网格上,并从姿态潜在代码回归出辐射场。可动画化的NeRF(Animatable NeRF,AN)[56] 使用骨骼驱动框架对标准NeRF进行变形,并通过学习混合权重场来建模非刚性变形。[57] 在[56]的基础上增加了符号距离场和姿态依赖的变形场,以更好地建模动态人体的残余变形和几何细节。[92] 优化了在标准空间中的人体的体积表示,以及估计的人体姿态。
图3. 在ZJU-MoCap和MonoCap数据集上新颖视图合成的定性结果。我们的方法在仅需要 1 / 100 1/{100} 1/100的训练时间的情况下,产生了更好的渲染结果。底部一行列出了每种方法的训练时间。
(2)通用方法。PixelNeRF [99] 训练一个网络,从单张图像推断辐射场。神经人类表演者(Neural Human Performer,NHP)[34] 将图像特征锚定到SMPL网格的顶点,并使用变压器聚集时间特征,这些特征被解码成人体模型。对于每个评估的主题(例如MonoCap的一个主题),我们首先在其他数据集(例如ZJU-MoCap)上预训练网络,然后在该主题上微调网络直到收敛。
针对ZJU-MoCap数据集的结果。表1比较了我们的方法与NB [58]、AN [56]、PixelNeRF [99]、NHP [34]、HN [92]以及AS [57]在novel view synthesis方面的表现。我们提出的表示可以在大约5分钟内优化以产生逼真的渲染结果,而[56-58, 92]需要大约10小时来完成训练, [ 34 , 99 ] \left\lbrack {{34},{99}}\right\rbrack [34,99]需要10小时的预训练和1小时的微调。[57, 92]的表现优于[56, 58]。然而,由于它们的模型尚未收敛,它们都需要一个漫长的优化过程,并且在仅5分钟内无法产生合理的渲染结果。通用方法 [ 34 , 99 ] \left\lbrack {{34},{99}}\right\rbrack [34,99]在单目设置下无法渲染出具有合理形状的人类。我们的方法即使在仅训练了几分钟的情况下,也能在所有三个评估指标上取得可比较的结果,这显示了我们的新颖人类表示的有效性。我们在图3中展示了我们的方法和基线的定性结果。
针对MonoCap数据集的结果。表1总结了我们的方法与其他
|------------------|-------------------|--------|---------|-------------------------------------------|------------------|---------|-------------------------------------------|
| | Training Time | ZJU-MoCap ||| MonoCap |||
| | Training Time | PSNR ↑ | SSIM ^ | {\\mathrm{{LPIPS}}}\^{ \* } \\downarrow | PSNR \\uparrow | SSIM ^ | {\\mathrm{{LPIPS}}}\^{ \* } \\downarrow |
| Ours | ~5 min | 31.01 | 0.971 | 38.45 | 32.61 | 0.988 | 16.68 |
| HumanNeRF [92] | 10 h | 30.66 | 0.969 | 33.38 | 32.68 | 0.987 | 15.52 |
| AS [57] | ~10 h | 30.38 | 0.975 | 37.23 | 32.48 | 0.988 | 13.18 |
| AN [56] | ~10 h | 29.77 | 0.965 | 46.89 | 31.07 | 0.985 | 19.47 |
| NB [58] | ~10 h | 29.03 | 0.964 | 42.47 | 32.36 | 0.986 | 16.70 |
| NHP [34] | ~1 h fine-tuning | 28.25 | 0.955 | 64.77 | 30.51 | 0.980 | 27.14 |
| PixelNeRF [99] | ~1 h fine-tuning | 24.71 | 0.892 | 121.86 | 26.43 | 0.960 | 43.98 |
表1。我们的方法与基线方法在ZJU-MoCap和MonoCap数据集上的定量比较。我们在最佳指标值下使用粗体文字,在次佳指标值下使用下划线文字。我们的方法实现了最快的训练速度,并展示了有竞争力的渲染结果。注意,NHP [34]和PixelNeRF [99]额外预训练了10小时。LPIPS* = LPIPS × 10 3 \times {10}^{3} ×103。
| (a) Ablation studies on proposed components ||||
PSNR | SSIM | LPIPS* | |
---|---|---|---|
Ours | 32.09 | 0.982 | 23.47 |
Ours w/o Part | 30.11 | 0.974 | 45.84 |
Ours w/o UV | 31.40 | 0.979 | 30.99 |
Ours w/o Perc | 30.55 | 0.976 | 44.33 |
| (b) Ablation studies on variants of {\\mathrm{{MLP}}}_{\\text{res }} input. ||||
PSNR | SSIM | LPIPS* | |
---|---|---|---|
Ours | 32.09 | 0.982 | 23.47 |
PE | 31.94 | 0.981 | 26.76 |
XYZ-Code | 31.32 | 0.979 | 31.19 |
XYZ-Pose | 31.51 | 0.979 | 34.42 |
| (c) Ablation studies on the part parameters ||||
PSNR | SSIM | LPIPS* | |
---|---|---|---|
Ours | 32.09 | 0.982 | 23.47 |
Table size {2}\^{15} | 30.69 | 0.976 | 35.67 |
Table size {2}\^{20} | 31.18 | 0.978 | 33.58 |
表2。针对ZJU-MoCap数据集377序列的消融研究定量结果。每个模型的描述可以在第4.3节中找到。所有模型都训练了5分钟。
MonoCap数据集上的基线。我们的模型由于采用了高效的基于部分的体素化人类表示和有效的运动参数化方案,再次实现了具有竞争力的视觉效果,同时仅需要 1 / 100 1/{100} 1/100 的训练时间。图3表明,我们的方法能够比 [56-58] 产生更好的外观细节。尽管 [56,58] 在给定4视图视频的情况下展示了令人印象深刻的渲染结果,但它们在单目输入上的表现不佳。[58] 使用结构化的潜在代码隐式地聚合时间信息,这在具有复杂人体运动的单目视频上可能无法很好地工作。[56] 使用可学习的混合权重场来建模人体运动,其维度较高,在单视图监督下可能难以良好收敛。 [ 57 , 92 ] \left\lbrack {{57},{92}}\right\rbrack [57,92] 展示了类似的视觉效果,并表明用LBS模型和残差形变表示人体运动特别有效,但他们的模型需要 100 x {100}\mathrm{x} 100x 更长的优化时间。
4.3. 抽象研究
我们在ZJU-MoCap数据集的377序列上进行了抽象研究,以分析所提出组件如何影响我们方法的性能和训练速度。
4.3.1 对提出组件的抽象研究。
表2(a)列出了对我们提出组件的消融研究的定量结果。所有模型都训练了5分钟。"Ours w/o Part"代表具有单个MHE增强NeRF [48]网络的典型人体,这显著降低了收敛率。为了保持比较的公平性,我们方法的这种变体具有与我们的方法 ( 286 M ) \left( {{286}\mathrm{M}}\right) (286M) 相似的参数数量 ( 302 M ) \left( {{302}\mathrm{M}}\right) (302M) 。然而,这种改变导致PSNR显著下降 1.98 d B {1.98}\mathrm{{dB}} 1.98dB ,因为其不理智的设计考虑所有部分具有相同的复杂性并浪费了表征能力。在"Ours w/o UV"中,残差形变网络 M L P res {\mathrm{{MLP}}}_{\text{res }} MLPres 以哈希编码 ( x , t ) \left( {\mathbf{x},t}\right) (x,t) 作为输入,由于严重的哈希冲突和有限的分辨率,观察到PSNR从 32.09 d B {32.09}\mathrm{\;{dB}} 32.09dB 下降到 31.40 d B {31.40}\mathrm{\;{dB}} 31.40dB ,训练时间相同。 "Ours w/o Perc"在训练期间没有采用感知损失,这反过来增加了LPIPS距离。这种比较说明了感知损失对视觉保真度的重要性。图4和图5提供了提出方法的变体之间的更直观的定性比较。
图4. 提出管道不同变体的收敛LPIPS和达到收敛所需时间的比较。每个模型的描述可以在第4.3节找到。提出的组件显著加速了训练并提高了渲染质量。LPIPS =LPIPS × 10 3 \times {10}^{3} ×103
图 5. 对 ZJU-MoCap 数据集的 377 序列进行消融研究。 "Ours w/o part" 表示我们使用了一个增强的 MHE NeRF 网络来表示整个身体。 "Ours w/o UV" 表示残差形变网络 MLP 以哈希编码 x t {x}_{t} xt 作为输入。 "Ours w/o Perc" 表示我们在训练过程中没有使用感知损失。
基于部分的体素化人类表示分析 -
部分。MHE [48] 定义了一个可训练特征的 多分辨率哈希表,用于将输入坐标嵌入到高维空间。我们发现,仅仅增加哈希表的大小并不总是能在相同的训练时间内带来更好的性能,因为更大的哈希表会导致更高的内存消耗,并增加了每次训练迭代的时间。我们提出的基于部分的体素化人类表示允许我们根据人体部分的复杂性调整哈希表的大小,使我们能够有效地表示人体。表 2(a) 证明了基于部分的体素化人类表示的有效性。为了进一步验证这种表示,我们设计了两种变体,分别在全人部分中使用大小为 2 15 {2}^{15} 215 和 2 20 {2}^{20} 220 的哈希表。表 2© 总结了消融研究,表明在人体部分中改变模型参数可以提高性能。
分析运动参数化方案。表2(a)显示,当残差形变网络 M L P res {\mathrm{{MLP}}}{\text{res }} MLPres 以参数化 3 D 3\mathrm{D} 3D 的表面时间 ( u , v , t ) \left( {u,v,t}\right) (u,v,t) 坐标作为输入时,我们的模型比采用4D时空 ( x , t ) \left( {\mathbf{x},t}\right) (x,t) 作为输入时表现更好。注意 ( u , v , t ) \left( {u,v,t}\right) (u,v,t) 使得MHE比 ( x , t ) \left( {\mathbf{x},t}\right) (x,t) 内存效率高得多。为了进一步验证我们运动参数化的有效性,我们还设计了三种 M L P res {\mathrm{{MLP}}}{\text{res }} MLPres 输入的变体。(1)PE:位置编码 ( x , t ) \left( {\mathbf{x},t}\right) (x,t)。(2)XYZ-Code:哈希编码 x \mathbf{x} x 和每帧可学习的潜在码 [57]。(3)XYZ-Pose:哈希编码 x \mathbf{x} x 和姿态参数 [ 40 , 92 ] \left\lbrack {{40},{92}}\right\rbrack [40,92]。当以位置编码 ( x , t ) \left( {\mathbf{x},t}\right) (x,t) 作为输入时,我们为 M L P res {\mathrm{{MLP}}}_{\text{res }} MLPres 使用了更大的网络。表2(b)的结果表明,哈希编码 ( u , v , t ) \left( {u,v,t}\right) (u,v,t) 达到了最佳性能。
分析鲁棒性。为了评估所提出系统的鲁棒性,我们在"377"序列上测量了五次达到30的评价PSNR所需的时间。这得到了训练时间的平均值 76.00 s {76.00}\mathrm{\;s} 76.00s 和标准差 13.56 s {13.56s} 13.56s,显示出所提方法稳定性。
5. 局限性
尽管我们的方法能够从视频中快速重建高质量的人类模型,但仍存在一些挑战。首先,我们希望从稀疏的多视角图像中推断出人类模型。通过将我们提出的组件应用于像 [ 34 , 99 ] \left\lbrack {{34},{99}}\right\rbrack [34,99] 这样的通用方法,可能是解决这个问题的方向。其次,我们的方法目前依赖于准确的SMPL参数,这在野外环境中可能难以获得。利用 [ 78 , 92 ] \left\lbrack {{78},{92}}\right\rbrack [78,92] 中的技术优化人体姿态参数,同时训练人类虚拟形象,这是一个有趣的方向。第三,我们只能重建前景动态人类,而动态场景通常包括前景和背景实体。将我们的方法与ST-NeRF [29] 结合起来,快速重建包含前景和背景物体的动态场景可能是可行的。
6. 结论
我们介绍了一种新颖的动态人类表示方法,可以从视频中快速优化并用于生成人类表演者的自由视角视频。这种表示方法包括一个基于部分的三维体素化人类模型在标准空间中,以及一个运动参数化方案,将点从世界空间转换到标准空间。基于部分的三维体素化人类模型将人体分解为多个部分,并用一个增强的NeRF网络来表示每个部分,这有效地分配了网络的表征能力,并显著提高了训练速度。当预测查询点的运动时,运动场将点坐标重新参数化为2D表面级别的UV坐标,这有效地降低了网络需要建模的运动维度,从而提高了收敛率。实验证明,我们提出的表示方法可以在 1 / 100 1/{100} 1/100 的时间内优化,同时仍然保持有竞争力的渲染质量。我们展示了给定一个100帧的单目视频,分辨率为 512 × 512 {512} \times {512} 512×512,我们的方法可以在RTX 3090 GPU上以分钟为单位生成逼真的自由视角视频。
参考文献
[1] Kara-Ali Aliev, Artem Sevastopolsky, Maria Kolos, Dmitry Ulyanov, and Victor Lempitsky. Neural point-based graphics. In ECCV, 2020. 2
[2] Thiemo Alldieck, Mihai Zanfir, and Cristian Sminchisescu. Photorealistic monocular 3 d 3\mathrm{\;d} 3d reconstruction of humans wearing clothing. arXiv preprint arXiv:2204.08906, 2022. 2
[3] Jonathan T Barron, Ben Mildenhall, Matthew Tancik, Peter Hedman, Ricardo Martin-Brualla, and Pratul P Srinivasan. Mip-nerf: A multiscale representation for anti-aliasing neural radiance fields. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5855-5864, 2021. 2, 3
[4] Jonathan T Barron, Ben Mildenhall, Dor Verbin, Pratul P Srinivasan, and Peter Hedman. Mip-nerf 360: Unbounded anti-aliased neural radiance fields. arXiv preprint arXiv:2111.12077, 2021. 2, 5
[5] Alexander Bergman, Petr Kellnhofer, and Gordon Wetzstein. Fast training of neural lumigraph representations using meta learning. Advances in Neural Information Processing Systems, 34, 2021. 3
[6] Bharat Lal Bhatnagar, Cristian Sminchisescu, Christian Theobalt, and Gerard Pons-Moll. Loopreg: Self-supervised learning of implicit surface correspondences, pose and shape for 3d human mesh registration. In NeurIPS, 2020. 4
[7] Anpei Chen, Zexiang Xu, Andreas Geiger, Jingyi Yu, and Hao Su. Tensorf: Tensorial radiance fields. arXiv preprint arXiv:2203.09517, 2022. 3
[8] Anpei Chen, Zexiang Xu, Fuqiang Zhao, Xiaoshuai Zhang, Fanbo Xiang, Jingyi Yu, and Hao Su. Mvsnerf: Fast generalizable radiance field reconstruction from multi-view stereo. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 14124-14133, 2021. 3
[9] Xu Chen, Yufeng Zheng, Michael J Black, Otmar Hilliges, and Andreas Geiger. Snarf: Differentiable forward skinning for animating non-rigid neural implicit shapes. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 11594-11604, 2021. 2
[10] Yue Chen, Xuan Wang, Qi Zhang, Xiaoyu Li, Xingyu Chen, Yu Guo, Jue Wang, and Fei Wang. Uv volumes for real-time rendering of editable free-view human performance. arXiv preprint arXiv:2203.14402, 2022. 3
[11] Zhiqin Chen and Hao Zhang. Learning implicit fields for generative shape modeling. In CVPR, 2019. 2
[12] Julian Chibane, Aayush Bansal, Verica Lazova, and Gerard Pons-Moll. Stereo radiance fields (srf): Learning view synthesis for sparse views of novel scenes. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7911-7920, 2021. 3
[13] Alvaro Collet, Ming Chuang, Pat Sweeney, Don Gillett, Dennis Evseev, David Calabrese, Hugues Hoppe, Adam Kirk, and Steve Sullivan. High-quality streamable free-viewpoint video. ACM TOG, 2015. 2
[14] Robert L Cook. Shade trees. In Proceedings of the 11th annual conference on Computer graphics and interactive techniques, pages 223-231, 1984. 2, 4
[15] Robert L Cook, Loren Carpenter, and Edwin Catmull. The reyes image rendering architecture. ACM SIGGRAPH Computer Graphics, 21(4):95-102, 1987. 2, 4
[16] Boyang Deng, John P Lewis, Timothy Jeruzalski, Gerard Pons-Moll, Geoffrey Hinton, Mohammad Norouzi, and Andrea Tagliasacchi. Nasa neural articulated shape approximation. In European Conference on Computer Vision, pages 612-628. Springer, 2020. 3
[17] Mingsong Dou, Sameh Khamis, Yury Degtyarev, Philip Davidson, Sean Ryan Fanello, Adarsh Kowdle, Sergio Orts Escolano, Christoph Rhemann, David Kim, Jonathan Taylor, et al. Fusion4d: Real-time performance capture of challenging scenes. ACM TOG, 2016. 2
[18] Yilun Du, Yinan Zhang, Hong-Xing Yu, Joshua B Tenenbaum, and Jiajun Wu. Neural radiance flow for 4d view synthesis and video processing. In 2021 IEEE/CVF International Conference on Computer Vision (ICCV), pages 14304-14314. IEEE Computer Society, 2021. 2
[19] Emilien Dupont, Hyunjik Kim, SM Eslami, Danilo Rezende, and Dan Rosenbaum. From data to functa: Your data point is a function and you should treat it like one. arXiv preprint arXiv:2201.12204, 2022. 3
[20] Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic meta-learning for fast adaptation of deep networks. In International conference on machine learning, pages 1126-1135. PMLR, 2017. 3
[21] Xuan Gao, Chenglai Zhong, Jun Xiang, Yang Hong, Yudong Guo, and Juyong Zhang. Reconstructing personalized semantic facial nerf models from monocular video. arXiv preprint arXiv:2210.06108, 2022. 3
[22] Stephan J Garbin, Marek Kowalski, Matthew Johnson, Jamie Shotton, and Julien Valentin. Fastnerf: High-fidelity neural rendering at 200 f p s {200}\mathrm{{fps}} 200fps . In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 14346- 14355, 2021. 2
[23] Haoyu Guo, Sida Peng, Haotong Lin, Qianqian Wang, Guofeng Zhang, Hujun Bao, and Xiaowei Zhou. Neural 3 d 3\mathrm{\;d} 3d scene reconstruction with the manhattan-world assumption. In CVPR, 2022. 2
[24] Kaiwen Guo, Peter Lincoln, Philip Davidson, Jay Busch, Xueming Yu, Matt Whalen, Geoff Harvey, Sergio Orts-Escolano, Rohit Pandey, Jason Dourgarian, et al. The re-lightables: Volumetric performance capture of humans with realistic relighting. ACM TOG, 2019. 2
[25] Marc Habermann, Lingjie Liu, Weipeng Xu, Michael Zoll-hoefer, Gerard Pons-Moll, and Christian Theobalt. Real-time deep dynamic characters. In SIGGRAPH, 2021. 5
[26] Marc Habermann, Weipeng Xu, Michael Zollhofer, Gerard Pons-Moll, and Christian Theobalt. Deepcap: Monocular human performance capture using weak supervision. In CVPR, 2020. 5
[27] Peter Hedman, Pratul P Srinivasan, Ben Mildenhall, Jonathan T Barron, and Paul Debevec. Baking neural radiance fields for real-time view synthesis. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5875-5884, 2021. 2
[28] Tao Hu, Tao Yu, Zerong Zheng, He Zhang, Yebin Liu, and Matthias Zwicker. Hvtr: Hybrid volumetric-textural rendering for human avatars. arXiv preprint arXiv:2112.10203, 2021. 2
[29] Zhang Jiakai, Liu Xinhang, Ye Xinyi, Zhao Fuqiang, Zhang Yanshun, Wu Minye, Zhang Yingliang, Xu Lan, and Yu Jingyi. Editable free-viewpoint video using a layered neural representation. In SIGGRAPH, 2021. 8
[30] Boyi Jiang, Yang Hong, Hujun Bao, and Juyong Zhang. Sel-frecon: Self reconstruction your digital avatar from monocular video. arXiv preprint arXiv:2201.12792, 2022. 2
[31] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In ECCV, 2016. 5
[32] James T Kajiya and Brian P Von Herzen. Ray tracing volume densities. ACM SIGGRAPH computer graphics, 18(3):165- 174, 1984. 5
[33] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015. 5
[34] Youngjoong Kwon, Dahun Kim, Duygu Ceylan, and Henry Fuchs. Neural human performer: Learning generalizable radiance fields for human performance rendering. Advances in Neural Information Processing Systems, 34, 2021. 1, 2, 5, 6 , 7 , 8 6,7,8 6,7,8
[35] John P Lewis, Matt Cordner, and Nickson Fong. Pose space deformation: a unified approach to shape interpolation and skeleton-driven deformation. In SIGGRAPH, 2000. 2, 3, 4
[36] Ruilong Li, Julian Tanke, Minh Vo, Michael Zollhofer, Jurgen Gall, Angjoo Kanazawa, and Christoph Lassner. Tava: Template-free animatable volumetric actors. arXiv preprint arXiv:2206.08929, 2022. 2
[37] Zhengqi Li, Simon Niklaus, Noah Snavely, and Oliver Wang. Neural scene flow fields for space-time view synthesis of dynamic scenes. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6498-6508, 2021. 2
[38] Yiyi Liao, Katja Schwarz, Lars Mescheder, and Andreas Geiger. Towards unsupervised learning of generative models for 3 d 3\mathrm{\;d} 3d controllable image synthesis. In CVPR,2020. 2
[39] Lingjie Liu, Jiatao Gu, Kyaw Zaw Lin, Tat-Seng Chua, and Christian Theobalt. Neural sparse voxel fields. Advances in Neural Information Processing Systems, 33:15651-15663, 2020. 2, 3
[40] Lingjie Liu, Marc Habermann, Viktor Rudnev, Kripasindhu Sarkar, Jiatao Gu, and Christian Theobalt. Neural actor: Neu-
ral free-view synthesis of human actors with pose control. In SIGGRAPH Asia, 2021. 2, 3, 4, 5, 8
[41] Shaohui Liu, Yinda Zhang, Songyou Peng, Boxin Shi, Marc Pollefeys, and Zhaopeng Cui. Dist: Rendering deep implicit signed distance function with differentiable sphere tracing. In CVPR, 2020. 2
[42] Stephen Lombardi, Tomas Simon, Jason Saragih, Gabriel Schwartz, Andreas Lehrmann, and Yaser Sheikh. Neural volumes: Learning dynamic renderable volumes from images. In SIGGRAPH, 2019. 2
[43] Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, and Michael J Black. Smpl: A skinned multi-person linear model. ACM TOG, 2015. 2, 4
[44] Lars Mescheder, Michael Oechsle, Michael Niemeyer, Sebastian Nowozin, and Andreas Geiger. Occupancy networks: Learning 3 d 3\mathrm{\;d} 3d reconstruction in function space. In CVPR, 2019. 2
[45] Marko Mihajlovic, Aayush Bansal, Michael Zollhoefer, Siyu Tang, and Shunsuke Saito. Keypointnerf: Generalizing image-based volumetric avatars using relative spatial encoding of keypoints. In European Conference on Computer Vision, pages 179-197. Springer, 2022. 3
[46] Marko Mihajlovic, Shunsuke Saito, Aayush Bansal, Michael Zollhoefer, and Siyu Tang. COAP: Compositional articulated occupancy of people. In Proceedings IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2022. 2, 3
[47] Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, Ravi Ramamoorthi, and Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. In ECCV, 2020. 2, 3, 5
[48] Thomas Müller, Alex Evans, Christoph Schied, and Alexander Keller. Instant neural graphics primitives with a mul-tiresolution hash encoding. In SIGGRAPH, 2022. 3, 4, 7, 8
[49] Alex Nichol, Joshua Achiam, and John Schulman. On first-order meta-learning algorithms. arXiv preprint arXiv:1803.02999, 2018. 3
[50] Michael Oechsle, Songyou Peng, and Andreas Geiger. Unisurf: Unifying neural implicit surfaces and radiance fields for multi-view reconstruction. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5589-5599, 2021. 2
[51] Jeong Joon Park, Peter Florence, Julian Straub, Richard Newcombe, and Steven Lovegrove. Deepsdf: Learning continuous signed distance functions for shape representation. In CVPR, 2019. 2, 3
[52] Keunhong Park, Utkarsh Sinha, Jonathan T Barron, Sofien Bouaziz, Dan B Goldman, Steven M Seitz, and Ricardo Martin-Brualla. Nerfies: Deformable neural radiance fields. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5865-5874, 2021. 2, 5
[53] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner,
Lu Fang, Junjie Bai, and Soumith Chintala. Pytorch: An imperative style, high-performance deep learning library. In NeurIPS, 2019. 5
[54] Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed AA Osman, Dimitrios Tzionas, and Michael J Black. Expressive body capture: 3d hands, face, and body from a single image. In CVPR, 2019. 4
[55] Bo Peng, Jun Hu, Jingtao Zhou, and Juyong Zhang. Selfnerf: Fast training nerf for human from monocular self-rotating video. arXiv preprint arXiv:2210.01651, 2022. 3
[56] Sida Peng, Junting Dong, Qianqian Wang, Shangzhan Zhang, Qing Shuai, Xiaowei Zhou, and Hujun Bao. Animatable neural radiance fields for modeling dynamic human bodies. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 14314-14323, 2021. 2, 4, 5, 6, 7
[57] Sida Peng, Shangzhan Zhang, Zhen Xu, Chen Geng, Boyi Jiang, Hujun Bao, and Xiaowei Zhou. Animatable neural implicit surfaces for creating avatars from videos. arXiv preprint arXiv:2203.08133, 2022. 5, 6, 7, 8
[58] Sida Peng, Yuanqing Zhang, Yinghao Xu, Qianqian Wang, Qing Shuai, Hujun Bao, and Xiaowei Zhou. Neural body: Implicit neural representations with structured latent codes for novel view synthesis of dynamic humans. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9054-9063, 2021. 1, 2, 5, 6, 7
[59] Albert Pumarola, Enric Corona, Gerard Pons-Moll, and Francesc Moreno-Noguer. D-nerf: Neural radiance fields for dynamic scenes. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10318-10327, 2021. 2
[60] Charles R Qi, Hao Su, Matthias Nießner, Angela Dai, Mengyuan Yan, and Leonidas J Guibas. Volumetric and multi-view cnns for object classification on 3 d 3\mathrm{\;d} 3d data. In CVPR, 2016. 2
[61] Amit Raj, Julian Tanke, James Hays, Minh Vo, Carsten Stoll, and Christoph Lassner. Anr: Articulated neural rendering for virtual avatars. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3722- 3731, 2021. 2
[62] Eduard Ramon, Gil Triginer, Janna Escur, Albert Pumarola, Jaime Garcia, Xavier Giro-i Nieto, and Francesc Moreno-Noguer. H3d-net: Few-shot high-fidelity 3d head reconstruction. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5620-5629, 2021. 3
[63] Christian Reiser, Songyou Peng, Yiyi Liao, and Andreas Geiger. Kilonerf: Speeding up neural radiance fields with thousands of tiny mlps. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 14335- 14345, 2021. 2
[64] Konstantinos Rematas, Andrew Liu, Pratul P Srinivasan, Jonathan T Barron, Andrea Tagliasacchi, Thomas Funkhouser, and Vittorio Ferrari. Urban radiance fields. arXiv preprint arXiv:2111.14643, 2021. 2
[65] Edoardo Remelli, Timur Bagautdinov, Shunsuke Saito, Chenglei Wu, Tomas Simon, Shih-En Wei, Kaiwen Guo, Zhe Cao, Fabian Prada, Jason Saragih, et al. Drivable volumetric avatars using texel-aligned features. In ACM SIGGRAPH 2022 Conference Proceedings, pages 1-9, 2022. 2
[66] Javier Romero, Dimitrios Tzionas, and Michael J Black. Embodied hands: Modeling and capturing hands and bodies together. ACM ToG, 2017. 4
[67] Shunsuke Saito, Zeng Huang, Ryota Natsume, Shigeo Mor-ishima, Angjoo Kanazawa, and Hao Li. Pifu: Pixel-aligned implicit function for high-resolution clothed human digitization. In ICCV, 2019. 2
[68] Shunsuke Saito, Tomas Simon, Jason Saragih, and Hanbyul Joo. Pifuhd: Multi-level pixel-aligned implicit function for high-resolution 3d human digitization. In CVPR, 2020. 2
[69] Shunsuke Saito, Jinlong Yang, Qianli Ma, and Michael J Black. Scanimate: Weakly supervised learning of skinned clothed avatar networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2886-2897, 2021. 2
[70] Vishwanath Saragadam, Jasper Tan, Guha Balakrishnan, Richard G Baraniuk, and Ashok Veeraraghavan. Miner: Multiscale implicit neural representations. arXiv preprint arXiv:2202.03532, 2022. 3
[71] Johannes L Schonberger and Jan-Michael Frahm. Structure-from-motion revisited. In CVPR, 2016. 2
[72] Johannes L Schönberger, Enliang Zheng, Jan-Michael Frahm, and Marc Pollefeys. Pixelwise view selection for unstructured multi-view stereo. In ECCV, 2016. 2, 3
[73] Ruizhi Shao, Hongwen Zhang, He Zhang, Yanpei Cao, Tao Y u \mathrm{{Yu}} Yu ,and Yebin Liu. Doublefield: Bridging the neural surface and radiance fields for high-fidelity human rendering. arXiv preprint arXiv:2106.03798, 2021. 3
[74] Vincent Sitzmann, Julien Martel, Alexander Bergman, David Lindell, and Gordon Wetzstein. Implicit neural representations with periodic activation functions. Advances in Neural Information Processing Systems, 33:7462-7473, 2020. 3
[75] Vincent Sitzmann, Justus Thies, Felix Heide, Matthias Nießner, Gordon Wetzstein, and Michael Zollhofer. Deep-voxels: Learning persistent 3 d 3\mathrm{\;d} 3d feature embeddings. In CVPR, 2019. 2
[76] Vincent Sitzmann, Michael Zollhöfer, and Gordon Wetzstein. Scene representation networks: Continuous 3d-structure-aware neural scene representations. In NeurIPS, 2019. 2
[77] Hang Su, Subhransu Maji, Evangelos Kalogerakis, and Erik Learned-Miller. Multi-view convolutional neural networks for 3 d 3\mathrm{\;d} 3d shape recognition. In Proceedings of the IEEE international conference on computer vision, pages 945-953, 2015. 2
[78] Shih-Yang Su, Frank Yu, Michael Zollhöfer, and Helge Rhodin. A-nerf: Articulated neural radiance fields for learning human shape, appearance, and pose. Advances in Neural Information Processing Systems, 34, 2021. 2, 8
[79] Zhuo Su, Lan Xu, Zerong Zheng, Tao Yu, Yebin Liu, et al. Robustfusion: Human volumetric capture with data-driven visual cues using a rgbd camera. In ECCV, 2020. 2
[80] Cheng Sun, Min Sun, and Hwann-Tzong Chen. Direct voxel grid optimization: Super-fast convergence for radiance fields reconstruction. arXiv preprint arXiv:2111.11215, 2021. 3
[81] Matthew Tancik, Vincent Casser, Xinchen Yan, Sabeek Prad-han, Ben Mildenhall, Pratul P Srinivasan, Jonathan T Barron, and Henrik Kretzschmar. Block-nerf: Scalable large scene
neural view synthesis. arXiv preprint arXiv:2202.05263, 2022. 2
[82] Matthew Tancik, Ben Mildenhall, Terrance Wang, Divi Schmidt, Pratul P Srinivasan, Jonathan T Barron, and Ren N g \mathrm{{Ng}} Ng . Learned initializations for optimizing coordinate-based neural representations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2846-2855, 2021. 3
[83] Matthew Tancik, Pratul Srinivasan, Ben Mildenhall, Sara Fridovich-Keil, Nithin Raghavan, Utkarsh Singhal, Ravi Ra-mamoorthi, Jonathan Barron, and Ren Ng. Fourier features let networks learn high frequency functions in low dimensional domains. Advances in Neural Information Processing Systems, 33:7537-7547, 2020. 3
[84] Matthias Teschner, Bruno Heidelberger, Matthias Müller, Danat Pomerantes, and Markus H Gross. Optimized spatial hashing for collision detection of deformable objects. In Vmv, volume 3, pages 47-54, 2003. 3
[85] Justus Thies, Michael Zollhöfer, and Matthias Nießner. Deferred neural rendering: Image synthesis using neural textures. ACM TOG, 2019. 2
[86] Garvita Tiwari, Nikolaos Sarafianos, Tony Tung, and Gerard Pons-Moll. Neural-gif: Neural generalized implicit functions for animating people in clothing. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 11708-11718, 2021. 2
[87] Alex Trevithick and Bo Yang. Grf: Learning a general radiance field for 3 d 3\mathrm{\;d} 3d representation and rendering. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 15182-15192, 2021. 3
[88] Haithem Turki, Deva Ramanan, and Mahadev Satya-narayanan. Mega-nerf: Scalable construction of large-scale nerfs for virtual fly-throughs. arXiv preprint arXiv:2112.10703, 2021. 2
[89] Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, Taku Komura, and Wenping Wang. Neus: Learning neural implicit surfaces by volume rendering for multi-view reconstruction. In NeurIPS, 2021. 2
[90] Qianqian Wang, Zhicheng Wang, Kyle Genova, Pratul P Srinivasan, Howard Zhou, Jonathan T Barron, Ricardo Martin-Brualla, Noah Snavely, and Thomas Funkhouser. Ibrnet: Learning multi-view image-based rendering. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4690-4699, 2021. 3
[91] Shaofei Wang, Katja Schwarz, Andreas Geiger, and Siyu Tang. Arah: animatable volume rendering of articulated human sdfs. arXiv preprint arXiv:2210.10036, 2022. 2
[92] Chung-Yi Weng, Brian Curless, Pratul P Srinivasan, Jonathan T Barron, and Ira Kemelmacher-Shlizerman. Hu-mannerf: Free-viewpoint rendering of moving people from monocular video. arXiv preprint arXiv:2201.04127, 2022. 1 , 2 , 5 , 6 , 7 , 8 1,2,5,6,7,8 1,2,5,6,7,8
[93] Yuanbo Xiangli, Linning Xu, Xingang Pan, Nanxuan Zhao, Anyi Rao, Christian Theobalt, Bo Dai, and Dahua Lin. Citynerf: Building nerf at city scale. arXiv preprint arXiv:2112.05504, 2021. 2
[94] Hongyi Xu, Thiemo Alldieck, and Cristian Sminchisescu. H-nerf: Neural radiance fields for rendering and temporal
reconstruction of humans in motion. Advances in Neural Information Processing Systems, 34, 2021. 2
[95] Lior Yariv, Jiatao Gu, Yoni Kasten, and Yaron Lipman. Volume rendering of neural implicit surfaces. In NeurIPS, 2021. 2
[96] Jianglong Ye, Yuntao Chen, Naiyan Wang, and Xiaolong Wang. Gifs: Neural implicit function for general shape representation. arXiv preprint arXiv:2204.07126, 2022. 2
[97] Alex Yu, Sara Fridovich-Keil, Matthew Tancik, Qinhong Chen, Benjamin Recht, and Angjoo Kanazawa. Plenoxels: Radiance fields without neural networks. arXiv preprint arXiv:2112.05131, 2021. 3
[98] Alex Yu, Ruilong Li, Matthew Tancik, Hao Li, Ren Ng, and Angjoo Kanazawa. Plenoctrees for real-time rendering of neural radiance fields. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5752- 5761, 2021. 2
[99] Alex Yu, Vickie Ye, Matthew Tancik, and Angjoo Kanazawa. pixelnerf: Neural radiance fields from one or few images. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4578-4587, 2021. 1, 3 , 5 , 6 , 7 , 8 3,5,6,7,8 3,5,6,7,8
[100] Ruiqi Zhang and Jie Chen. Ndf: Neural deformable fields for dynamic human modelling. arXiv preprint arXiv:2207.09193, 2022. 2
[101] Fuqiang Zhao, Wei Yang, Jiakai Zhang, Pei Lin, Yingliang Zhang, Jingyi Yu, and Lan Xu. Humannerf: Generalizable neural human radiance field from sparse inputs. arXiv preprint arXiv:2112.02789, 2021. 2
[102] Zerong Zheng, Han Huang, Tao Yu, Hongwen Zhang, Yan-dong Guo, and Yebin Liu. Structured local radiance fields for human avatar modeling. arXiv preprint arXiv:2203.14478, 2022. 2
[103] Shuaifeng Zhi, Tristan Laidlow, Stefan Leutenegger, and Andrew J Davison. In-place scene labelling and understanding with implicit scene representation. In ICCV, 2021. 2
[104] Yihao Zhi, Shenhan Qian, Xinhao Yan, and Shenghua Gao. Dual-space nerf: Learning animatable avatars and scene lighting in separate spaces. arXiv preprint arXiv:2208.14851, 2022. 2
一 问题背景
传统的神经辐射场(NeRF, Neural Radiance Fields)和体积表示方法(Volumetric Representation)虽然在静态场景的三维重建中表现出色,但在动态场景中,尤其是动态人类的重建,仍然面临较大的挑战。主要的困难包括:
计算复杂度高,训练时间长;
动态变化带来的模型生成不稳定;
难以实现实时渲染。
针对这些挑战,本文提出了能够高效生成动态人类体积表示的方法,大幅加快了模型的训练速度。
二 模块
2.1 Neural Volumetric Representation(神经体积表示)
本文的核心思想是基于神经网络的体积表示。该方法使用的是类似于NeRF的体积渲染技术,通过神经网络隐式表示三维空间中的颜色和密度信息,从而生成场景的体积数据。特别地,本文进一步发展了这一技术,适应动态场景中的人类建模。
创新点:
体积表示与动态场景结合:该方法将体积表示从静态扩展到动态场景,并针对人类的动态特性进行了优化,使得模型可以学习和表达复杂的运动。
高效的体积渲染:通过改进的渲染方法,显著减少了体积渲染所需的计算资源和时间。
2.2 Efficient Neural Networks for Volume Representation(高效的神经网络)
为了加快体积表示的训练过程,论文引入了一个高效的神经网络架构。该网络可以快速地学习动态人体的表示,从而在几分钟内完成训练。
创新点:
优化的网络结构:与传统的NeRF相比,该网络对动态场景的处理进行了特别的优化,在降低计算复杂度的同时,保留了网络的表达能力。
训练效率提升:论文通过引入新的网络层和训练技巧,使得网络可以在数分钟内学习复杂的动态人类数据,而不牺牲精度。
2.3 Dynamic Human Motion Representation(动态人类运动表示)
动态人类的三维建模是一个非常复杂的问题。本文的模型能够通过少量的数据输入,例如多视角的视频,来学习人类在运动中的体积表示。模型捕捉的不仅仅是静态的姿态,还包括随着时间变化的人体动态。
创新点:
时空一致性:模型在学习动态人体时,能够保持空间和时间上的一致性,使得生成的人体运动自然连贯。
姿态与形状的分离表示:为了更好地适应人类运动,模型将人体的姿态(pose)与形状(shape)分开建模。这种表示方式允许模型更加灵活地生成不同的姿态变化,而不会影响人体的形状。
2.4 Fast Training with a Multi-view Setup(多视角训练加速)
论文使用了一个多视角的视频设置(multi-view setup),即通过从多个不同角度拍摄的图像数据来训练神经网络。这种方式允许网络在训练过程中从多种视角学习人体的全貌,从而减少了对单一视角的依赖。
创新点:
少量数据即可训练:相比于传统方法需要大量的数据才能进行动态人类建模,本文的方法只需要较少的多视角数据即可训练出精确的体积表示模型。
快速训练和收敛:通过有效的多视角数据使用以及网络优化,模型能够在几分钟内完成训练,相比于传统方法(通常需要几小时甚至几天),大幅缩短了时间。
2.5 Rendering Optimization(渲染优化)
在体积渲染中,计算每个体积单元的颜色和透明度是一项耗时的任务。为了加快渲染速度,本文在体积渲染的过程中做了诸多优化,使得动态人类的渲染变得更加高效。
创新点:
层次化渲染:模型采用了一种层次化的渲染方式,根据场景的复杂性和重要性调整渲染的精细程度,从而节省不必要的计算。
实时渲染的潜力:虽然目前模型的渲染还没有达到完全的实时,但论文展示了其未来扩展为实时渲染的潜力。
三 创新点总结
训练速度极大提升:传统的NeRF方法需要大量的训练时间,而本文的方法将其缩短到几分钟,通过优化网络结构和训练流程,确保了高效性。
动态人体的高效表示:相较于静态场景,动态人体的表示更加复杂,但本文提出了针对动态人体的高效学习方法,成功地扩展了神经体积表示的适用范围。
时空一致性与灵活性:通过分离姿态和形状,以及保持时空一致性,本文的方法生成的人体运动更加自然且灵活。
少数据高精度训练:利用多视角设置,该方法在少量数据的情况下就能够训练出高质量的动态人类模型,显著降低了数据需求。