论文Review 3DGS HAC | ECCV2024 上海交大莫纳什大学| 数10倍的3DGS模型压缩

基本信息

题目：HAC: Hash-grid Assisted Context for 3D Gaussian Splatting Compression

来源：ECCV 2024

学校：SJTU

是否开源：GitHub - YihangChen-ee/HAC: :house: [ECCV 2024] Pytorch implementation of 'HAC: Hash-grid Assisted Context for 3D Gaussian Splatting Compression'

摘要：3DGS压缩

三维高斯抛雪球( 3DGS )具有渲染速度快、保真度高等优点，是一种很有前途的新视点合成框架。然而，大量的高斯及其相关属性需要有效的压缩技术。尽管如此，高斯(或本文中的锚)点云的稀疏性和无组织性对压缩提出了挑战。为了解决这个问题，我们利用无组织锚点和结构化哈希网格之间的关系，利用它们的互信息进行上下文建模，并提出了一种哈希网格辅助的上下文( HAC )框架，用于高度紧凑的3DGS表示。我们的方法引入了二进制哈希网格来建立连续的空间一致性，允许我们通过精心设计的上下文模型来揭示锚点的内在空间关系。为了便于熵编码，我们利用高斯分布来准确估计每个量化属性的概率，其中提出了一个自适应量化模块，以实现对这些属性的高精度量化，以提高保真度恢复。此外，我们还结合了一种自适应的掩码策略来消除无效的高斯和锚点。重要的是，我们的工作是探索基于上下文压缩的3DGS表示的先驱，与vanilla 3DGS相比，实现了超过75 ×的显著尺寸缩减，同时提高了保真度，并实现了超过11 ×的尺寸缩减。

Introduction

论文首先回顾了近年来3D场景表示在新型视图合成（novel view synthesis）领域的进展。

背景技术演进 ：
- Neural Radiance Field (NeRF)：NeRF是一种隐式表示方法，使用多层感知机（MLP）沿采样射线积累RGB值来渲染颜色，实现照片级真实图像重建。但NeRF的瓶颈是需要大量射线点采样，导致训练和渲染速度慢。
- NeRF的改进 ：引入特征网格（feature grids）来加速渲染，通过缩小MLP规模来提升速度。但这些方法仍需频繁采样射线点，渲染速度相对较慢。
- 3D Gaussian Splatting (3DGS) ：一种新兴范式，使用可学习的3D高斯分布（Gaussians）显式表示3D空间。这些高斯分布从结构从运动（SfM）初始化，具有可学习的形状和外观参数。通过基于图块的光栅化（tile-based rasterization），可以快速、可微分地渲染到2D平面，避免了NeRF的体积渲染（volume rendering）。这使得渲染速度极快，并保持高照片真实度，因此迅速被广泛采用。
3DGS的缺点 ：
- 需要大量3D高斯分布来表示大规模场景（如城市级场景需要数百万个高斯），每个高斯都有关联属性，导致存储空间巨大（几GB）。
- 高斯分布稀疏且无序，压缩困难。
现有压缩方法的局限 ：
- 大多数方法只关注参数"值"（values），忽略结构关系（structural relations）。
  - 示例：参数修剪（pruning）[Lightgaussian, 22]：删除值低于阈值的高斯。
  - 向量量化（vector quantization）[Lightgaussian, 22, Compact3d, 32]：聚类相似值，只保留代表性参数。
- 这些方法无法消除结构冗余（structural redundancies），这是紧凑表示的关键。
- Scaffold-GS ：引入锚点（anchors）来聚类附近的相关3D高斯，并从锚点属性神经预测高斯属性，实现存储节省。但锚点仍是稀疏、无序的点云形式，难以进一步压缩。
论文的创新想法 ：
- 受NeRF系列启发，考虑使用有序特征网格表示3D空间。
- 观察到Scaffold-GS中无序锚点属性与结构化哈希网格特征之间存在大量互信息（mutual information）。
- 提出Hash-grid Assisted Context (HAC)框架 ：联合学习结构化的紧凑哈希网格（每个哈希参数二值化），用于锚点属性的上下文建模。
  - 以Scaffold-GS作为基础模型，对于每个锚点，根据其位置查询哈希网格，得到插值哈希特征（interpolated hash feature）。
  - 使用该特征预测锚点属性的值分布（value distributions），便于熵编码（如算术编码AE），实现高度紧凑的模型表示。
- 此外，引入Adaptive Quantization Module (AQM)：动态调整不同锚点属性的量化步长（quantization step sizes），保留原始信息。
- 使用可学习掩码（learnable masks）删除无效高斯和锚点，进一步提升压缩比。
贡献总结 ：
1. 首次为3DGS压缩建模上下文，即使用结构化哈希网格挖掘无序3D高斯（或Scaffold-GS中的锚点）之间的内在一致性。
2. 使用插值哈希特征神经预测锚点属性的值分布，并通过AQM神经预测量化步长细化；同时使用可学习掩码修剪无效元素。
3. 在五个数据集上的实验显示，HAC在平均压缩比上比基础Scaffold-GS高11倍，比原始3DGS高75倍，同时保持相当或更好的保真度（fidelity）。

Lee, J.C., Rho, D., Sun, X., Ko, J.H., Park, E.: Compact 3d gaussian representation for radiance field. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2024)

Niedermayr, S., Stumpfegger, J., Westermann, R.: Compressed 3d gaussian splatting for accelerated novel view synthesis. arXiv preprint arXiv:2401.02436 (2023)

这一节回顾了NeRF和3DGS的相关研究及其压缩技术，突显了论文的创新点。

Neural Radiance Field (NeRF)及其压缩 ：
- NeRF：使用隐式MLP沿射线积累RGB值生成视图，但采样点密集和大MLP导致渲染慢。
- 改进：Instant-NGP、TensoRF、K-planes、DVGO使用显式网格表示，缩小MLP，提升速度，但增加存储。
- 压缩技术：
  - 值-based方法：修剪[10, 25]、码本（codebooks）[25, 26]、量化或熵约束（如BiRF[37]、SHACIRA[15]）。
  - 结构关系-based方法：小波分解[34]、秩残差分解[40]、空间预测[38]，利用网格的有序结构消除空间冗余。CNC[7]充分利用结构信息，实现显著的率失真（RD）性能提升。
3D Gaussian Splatting (3DGS)及其压缩 ：
- 3DGS[19]：使用可学习形状和外观属性的3D高斯表示场景，通过可微分溅射（splatting）和光栅化优化，解决NeRF的慢速问题。
- 压缩挑战：高斯稀疏、无序，难以建立结构关系。
- 现有方法主要关注参数"值"：修剪[Lightgaussian, 22]、codebooks码本[Lightgaussian, 22, 31, 32]、熵约束[14]。
- 探索关系的方法：Scaffold-GS使用锚点中心特征减少参数；Morgenstern et al.[29]考虑维度折叠到有序2D空间。但这些对空间冗余的挖掘不足。
- 论文的灵感：图像压缩[8, 16, 17]和视频压缩[23, 24, 36]通过挖掘空间/时间关系消除结构冗余。论文以Scaffold-GS为基础，引入结构化哈希网格作为上下文，建模稀疏锚点的内在一致性，实现更紧凑表示。

Rho, D., Lee, B., Nam, S., Lee, J.C., Ko, J.H., Park, E.: Masked wavelet representation for compact neural radiance fields. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 20680--20690 (2023)

Song, Z., Duan, W., Zhang, Y., Wang, S., Ma, S., Gao, W.: Spc-nerf: Spatial predictive compression for voxel based radiance field. arXiv preprint arXiv:2402.16366 (2024)

Tang, J., Chen, X., Wang, J., Zeng, G.: Compressible-composable nerf via rankresidual decomposition. Advances in Neural Information Processing Systems 35, 14798--14809 (2022)

Chen, Y., Wu, Q., Harandi, M., Cai, J.: How far can we compress instant-ngpbased nerf? In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2024)

Deng, C.L., Tartaglione, E.: Compressing explicit voxel grid representations: fast nerfs become also small. In: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. pp. 1236--1245 (2023)

Cheng, Z., Sun, H., Takeuchi, M., Katto, J.: Learned image compression with discretized gaussian mixture likelihoods and attention modules. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 79397948 (2020)

He, D., Zheng, Y., Sun, B., Wang, Y., Qin, H.: Checkerboard context model for efficient learned image compression. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 14771--14780 (2021)

Girish, S., Shrivastava, A., Gupta, K.: Shacira: Scalable hash-grid compression for implicit neural representations. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 17513--17524 (2023)

Li, L., Shen, Z., Wang, Z., Shen, L., Bo, L.: Compressing volumetric radiance fields to 1 mb. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 4222--4231 (2023)

Li, L., Wang, Z., Shen, Z., Shen, L., Tan, P.: Compact real-time radiance fields with neural codebook. In: ICME (2023)

Morgenstern, W., Barthel, F., Hilsmann, A., Eisert, P.: Compact 3d scene representation via self-organizing gaussian grids. arXiv preprint arXiv:2312.13299 (2023)

Shin, S., Park, J.: Binary radiance fields. Advances in neural information processing systems (2023)

Method

论文在图2中概念化了HAC框架。HAC以Scaffold-GS[27]（图2上部）为基础，后者引入锚点及其属性A（包括特征、缩放和偏移）来聚类和神经预测3D高斯属性（不透明度、RGB、缩放、四元数）。HAC的核心是联合学习结构化的紧凑哈希网格（每个参数二值化），通过锚点位置查询网格得到插值哈希特征（图2中部）。不直接替换锚点特征，而是作为上下文预测锚点属性的值分布，用于后续熵编码（如算术编码AE）。

上下文模型（图2下部）是一个简单的MLP，输入，输出用于自适应量化模块（AQM）的r（量化锚点属性值到有限集），以及高斯参数（μ和σ）来建模锚点属性的值分布，从而计算每个量化属性的概率用于AE。图2中画了两个MLP（MLPq和MLPc），但它们实际共享MLP层，只是输出维度不同。此外，引入自适应偏移掩码模块（图2左上）来修剪冗余高斯和锚点。

HAC的关键创新是利用哈希网格挖掘锚点间的空间一致性（inherent consistencies），实现比特消耗最小化，而不影响渲染速度和保真度上限。

3.1 Preliminaries

3.2 Bridging Anchors and Hash Grid

3.3 HAC: Hash-Grid Assisted Context Framework

3.4 Training and Coding Process

实验

硬件平台

在单个NVIDIA RTX 4090 GPU上训练。

数据集

遵循Scaffold-GS，选择多个数据集：
- 小规模：Synthetic-NeRF [28]（合成数据集，用于初步验证）。
- 大规模真实场景：BungeeNeRF [42]、DeepBlending [18]、Mip-NeRF360 [2]（评估全部9个场景）、Tanks&Temples [20]。
这些数据集覆盖多样场景（合成 vs. 真实，小 vs. 大规模），确保评估的全面性。例如，BungeeNeRF是城市级大规模，挑战性高；Mip-NeRF360包括室内外多视图。

Mildenhall, B., Srinivasan, P.P., Tancik, M., Barron, J.T., Ramamoorthi, R., Ng, R.: Nerf: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM 65(1), 99--106 (2021)

Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B., Lin, D.: Bungeenerf: Progressive neural radiance field for extreme multi-scale scene rendering. In: European conference on computer vision. pp. 106--122. Springer (2022)

Hedman, P., Philip, J., Price, T., Frahm, J.M., Drettakis, G., Brostow, G.: Deep blending for free-viewpoint image-based rendering. ACM Transactions on Graphics (ToG) 37(6), 1--15 (2018)

Knapitsch, A., Park, J., Zhou, Q.Y., Koltun, V.: Tanks and temples: Benchmarking large-scale scene reconstruction. ACM Transactions on Graphics (ToG) 36(4), 1--13 (2017)

Benchmark

比较对象包括现有3DGS压缩方法：
- $11, 22, 31, 32\]：主要采用码本-based（codebook-based）或参数修剪（pruning）策略。这些是"值-based"方法，忽略结构冗余。$
- EAGLES [14]：使用非上下文熵约束（noncontextual entropy constraints）。
- Morgenstern et al. [29]：采用维度折叠（dimension collapse）技术。
这些基线代表了从简单值压缩到初步结构探索的多样性。HAC的创新在于上下文建模，预期在压缩率上优于它们。

metric

重点评估率失真（RD）性能：计算在相似保真度下，HAC相对于其他方法的相对率（大小）变化。
注：无法计算BD-rate [4]（Bjøntegaard Delta rate，一种标准RD指标），因为其他方法通常只输出单一率点，而BD-rate需至少四个率点。
隐含使用保真度指标如PSNR、SSIM、LPIPS（从补充材料推断，常见于NeRF/3DGS评估）。

定量结果 ：见表1和图4（补充C节有每个场景细节）。
- HAC比原始3DGS [19]压缩超过75×，且保真度甚至改善。
- 比基础Scaffold-GS [27]压缩超过11×。
- 最高保真度超过Scaffold-GS，主要原因：1) 熵损失正则化防止过拟合；2) 增加锚点特征维度到50，提升模型容量。
- 与其他压缩方法（中间组）比较：它们通过修剪和码本减少大小，但仍有显著空间冗余。Morgenstern [29]大小小，但因维度折叠显著牺牲保真度。
定性结果：图5显示视觉输出，HAC在细节保留上优越。
分析：这些结果证明HAC的有效性。75×压缩意味着从几GB降到几十MB，实用性强。改善保真度表明上下文建模不仅是压缩工具，还能优化表示。

初体验

TODO

论文Review 3DGS HAC | ECCV2024 上海交大 莫纳什大学| 数10倍的3DGS模型压缩