【论文简读】LongSplat

今天刷到一篇在arxiv上的文章，依旧是关于Generalizable 3D Gaussian Splatting的，感觉是对标的FreeSplat，都是要解决长序列高斯重建的问题。

文章链接：arxiv

文章目录

Abstract
[1 Introduction](#1 Introduction)
[2 Related Work](#2 Related Work)
[3 Method](#3 Method)
- [3.1 Vanilla 3D Gaussian Splatting](#3.1 Vanilla 3D Gaussian Splatting)
- [3.2 LongSplat Pipeline](#3.2 LongSplat Pipeline)
- - [History Fusion](#History Fusion)
  - [Compressed Module](#Compressed Module)
- [3.3 Gaussian-Image Representation (GIR)](#3.3 Gaussian-Image Representation (GIR))
- [3.4 Training](#3.4 Training)
[4 Experiments](#4 Experiments)
[5 Conclusion](#5 Conclusion)

Abstract

3D-GS在在线长序列重建场景下存在限制，现有方法依赖缓慢的逐场景优化，难以实时处理，或缺乏高效的增量更新机制，导致高斯冗余累积，内存和计算成本过高。LongSplat是一种面向长序列图像输入的实时在线重建框架。作者提出，采用流式更新机制（Streaming Update），逐帧融合当前视角信息，并压缩历史冗余Gaussians；引入Gaussian-Image Representation (GIR)，将3D Gaussians映射为2D图像结构，支持高效融合、冗余压缩和 2D 监督。实验效果说高斯数量减少 44%，仍能保持高保真度。

1 Introduction

作者的思路是，我们要解决两个问题，一个是如何自适应压缩已经存在的高斯，一个是我们如何在线添加新的高斯。基于此，文章提出了高斯更新机制，逐帧融合当前帧信息并压缩历史冗余Gaussians，并且提出Gaussian-Image Representation (GIR)将3D高斯映射为2D图像结构，支持高效的历史融合、压缩和监督。

介绍了传统的3D-GS、Generalizable 3D-GS和室内场景重建。

FreeSplat：latent GS表达，计算代价依旧高；

Long-LRM：批量处理固定数量视图，缺乏灵活性；

Zpressor：压缩存储，但仍依赖逐帧预测；

LongSplat：真正支持在线长序列重建，具有高效压缩和更新机制。

3 Method

3.1 Vanilla 3D Gaussian Splatting

介绍了标准3D-GS的内容。

3.2 LongSplat Pipeline

这个pipeline中有两套特征，一个是从当前帧及邻近帧提取的多视图特征，一个是历史上下文特征。为了保持长时间序列的信息，引入了GIR来把全局高斯投影到当前视图，并通过浅层CNN编码为历史上下文特征。

History Fusion

使用Transformer模块融合多视图特征 F c F_{c} Fc和全局特征 F h F_{h} Fh得到增强的特征 F f F_{f} Ff，然后从这个编码了当前appearance和上下文的特征中预测更新per-pixel权重图 M ~ t \tilde{M}_{t} M~t，值在0-1之间。

Compressed Module

基于权重图 M ~ t \tilde{M}{t} M~t生成二维mask M t M{t} Mt，用于保留高置信度高斯或者删除冗余/低置信度高斯。被筛选过后的特征，再经过lightweight transformer和共享高斯head生成当前frame的高斯。

3.3 Gaussian-Image Representation (GIR)

这个算是最直接的创新点，GIR将3D高斯表示转化为2D结构化表示，使得：

历史Gaussians可投影到当前视角并与图像特征对齐
压缩和更新可以在2D局部操作完成（避免全局 3D 遍历）
监督可以在2D空间进行

对于每个像素 ( u , v ) (u, v) (u,v)， G v ∈ R H × W × 10 \mathbf{G}_{v} \in \mathbb{R}^{H \times\ W \times 10} Gv∈RH× W×10存储了projected 2D position μ u v \mu^{uv} μuv，协方差矩阵 v e c h ( Σ u v ) vech(\Sigma^{uv}) vech(Σuv)（用上三角向量vech压缩表示），opacity α u v \alpha^{uv} αuv 还有一个Gaussian ID I D u v ID^{uv} IDuv。

特点：

每个像素对应一个显式高斯（非累加式体渲染），便于后续卷积、掩码操作
保留Gaussian ID，可实现"身份感知"的冗余压缩与历史融合

GIR的核心在于如何从3D Gaussians生成2D GIR图。作者提出两种策略：

Nearest Rendering：选择当前视线下第一个可见的Gaussian，类似于深度优先的原则
Most-Contributive Rendering：选择颜色贡献最大的Gaussian，避免透明度混合模糊，更利于监督与压缩

更进一步，GIR不仅是数据表示，还支撑了LongSplat的关键机制：

历史融合（History Fusion）
- 将上一帧的Gaussians投影为GIR，获得历史上下文特征
- 与当前帧的图像/几何特征在 2D 空间融合（Transformer）
- 解决长序列场景下的时序一致性问题
冗余压缩（Identity-Aware Compression）
- 通过ID追踪跨帧的Gaussians
- 在2D局部区域内比较重叠度（3D IoU），删除冗余高斯
- 避免全局点云遍历，大幅降低计算量
2D 空间监督
- 通过GIR，原本需要3D运算的损失（如几何一致性、掩码）转化为2D
  Geometry Loss：预测 Gaussians 与压缩数据集（LightGaussian）的像素级对齐
  Mask Loss：基于 Gaussian ID 的3D IoU 计算，生成学习式压缩掩码
  RGB Loss：直接在2D图像空间计算渲染误差。
轻量3D IoU计算
- 借助GIR的ID映射，只需在局部像素邻域比较高斯的3D OBB（Oriented Bounding Box）
- 避免全局点云两两比较，大幅降低冗余检测开销

3.4 Training

介绍了用到的各种loss函数。

4 Experiments

数据集：DL3DV-10K

硬件：8 × RTX 4090 + 4 × H100

结果：相较 DepthSplat，PSNR 提升 +3.6 dB，高斯数量减少 44%。