机器学习周报四十九

文章目录

- 摘要
- Abstract
- 总结

摘要

本周阅读了和高斯泼溅人体重建的三篇论文的方法部分，并且对每个方法的优缺点进行总结，为下一步研究指明方向。

Abstract

This week, I read the methods sections of three papers on Gaussian splatter human body reconstruction and summarized the pros and cons of each method to guide the next step of my research.

1.GauHuman

首先基于人体先验SMPL去初始化3D高斯球位置，基于LBS系数偏差和人体姿态纠正模块去学习3D高斯球从标准空间转换到目标空间的转换矩阵，基于tile的可微分渲染器去快速渲染图片，并利用人体先验和KL散度去约束分裂，克隆，合并和剪枝操作，以达到有效控制3D高斯球数目的目的。

模型结构很简单，但是重建的效果并不好。

2.GaussianAvatar

1、初始姿态估计：ROMP预计算数据集中每一帧人体的姿态形成npz文件。

2、在初始姿态上采样20w个高斯点，映射到uv map上，uv map大小是512*512，转换成uv之后的姿态经过Pose Encoder编码成Pose Feature，结合一个全局特征(整个训练过程中只有一个)一起输入高斯参数解码器，解码得到每个高斯的颜色等变换参数，和运动参数𝜃,𝑡通过LBS变换形成对应的姿态，最后泼溅形成人体建模。

3、训练分为两个阶段，第一个阶段不经过姿态编码器，模型解码器学习从估计的姿态和全局姿态特征优化运动参数，相当于学习每一帧的变化，训练好了之后，再加入姿态编码器，来学习准确重建人体。

1、模型的显存占用很高，对于姿态编码器，其实参数量并不高，但是由于需要采样接近26w个点，即使是只训练一个解码器，也需要很大的显存。

2、训练时间很长。

3.3DGA

1、从规范空间初始化高斯点

2、直接训练一个预测标准空间到目标空间的变换矩阵参数的模型

3、对高斯点的合并、分裂由局部密度（用 KL 散度衡量当前高斯点与其 KNN 邻居的分布相似性）和梯度来控制，局部密度可以指示该区域是否已经覆盖充分。

密度低，结构不足，需要密化。

密度高，结构充分，不在密化。

经过ROMP估计得到的姿态，变形到规范空间(T-Pose)，在T-Pose上采样5w个点，这5万个点作为模型的渲染，但是这些点都没有对应的真实的权重，没有办法直接监督，只能靠图片损失进行监督。

所以，从SMPL网格表面上随机采样2000个点，计算每个点的重心权重，然后计算这个三角形的三个顶点的蒙皮权重w，通过重心坐标插值计算采样点的真值蒙皮权重，进行损失计算，直接优化5万个点的权重。

原始 3DGS 的密化只看位置梯度：梯度大就 clone/split。这会导致在边缘、褶皱等处生成大量无用高斯点（尤其是各向同性高斯点彼此堆叠）。3DGA还看梯度，点附近的梯度大且密度低就密化。最后高斯点的数量降低到1.5w，然后磁盘占用也会更低。为每个高斯点寻找k个最近的高斯点计算局部密度。

𝜌 ( 𝐺 ( 𝑥 𝑖 ) ) = 1 A v g K L ( 𝐺 ( 𝑥 𝑖 ) ∣ ∣ 𝑛 ) 𝜌(𝐺_{(𝑥_𝑖 )} )=\frac{1}{AvgKL(𝐺_{(𝑥_𝑖 )} ||𝑛)} 𝜌(G(xi))=AvgKL(G(xi)∣∣n)1

1、训练时间短；

2、相对GaussianAvatar显存占用不那么大；

总结

本周阅读了这三篇人体重建的论文，关于GauHuman在上个星期已经进行了复现，下一步工作是复现3DGA的实验。