【论文简读】LongSplat

今天刷到一篇在arxiv上的文章,依旧是关于Generalizable 3D Gaussian Splatting的,感觉是对标的FreeSplat,都是要解决长序列高斯重建的问题。

文章链接:arxiv

文章目录

  • Abstract
  • [1 Introduction](#1 Introduction)
  • [2 Related Work](#2 Related Work)
  • [3 Method](#3 Method)
    • [3.1 Vanilla 3D Gaussian Splatting](#3.1 Vanilla 3D Gaussian Splatting)
    • [3.2 LongSplat Pipeline](#3.2 LongSplat Pipeline)
      • [History Fusion](#History Fusion)
      • [Compressed Module](#Compressed Module)
    • [3.3 Gaussian-Image Representation (GIR)](#3.3 Gaussian-Image Representation (GIR))
    • [3.4 Training](#3.4 Training)
  • [4 Experiments](#4 Experiments)
  • [5 Conclusion](#5 Conclusion)

Abstract

3D-GS在在线长序列重建场景下存在限制,现有方法依赖缓慢的逐场景优化,难以实时处理,或缺乏高效的增量更新机制,导致高斯冗余累积,内存和计算成本过高。LongSplat是一种面向长序列图像输入的实时在线重建框架。作者提出,采用流式更新机制(Streaming Update),逐帧融合当前视角信息,并压缩历史冗余Gaussians;引入Gaussian-Image Representation (GIR),将3D Gaussians映射为2D图像结构,支持高效融合、冗余压缩和 2D 监督。实验效果说高斯数量减少 44%,仍能保持高保真度。

1 Introduction

作者的思路是,我们要解决两个问题,一个是如何自适应压缩已经存在的高斯,一个是我们如何在线添加新的高斯。基于此,文章提出了高斯更新机制,逐帧融合当前帧信息并压缩历史冗余Gaussians,并且提出Gaussian-Image Representation (GIR)将3D高斯映射为2D图像结构,支持高效的历史融合、压缩和监督。

介绍了传统的3D-GS、Generalizable 3D-GS和室内场景重建。

FreeSplat:latent GS表达,计算代价依旧高;

Long-LRM:批量处理固定数量视图,缺乏灵活性;

Zpressor:压缩存储,但仍依赖逐帧预测;

LongSplat:真正支持在线长序列重建,具有高效压缩和更新机制。

3 Method

3.1 Vanilla 3D Gaussian Splatting

介绍了标准3D-GS的内容。

3.2 LongSplat Pipeline

这个pipeline中有两套特征,一个是从当前帧及邻近帧提取的多视图特征,一个是历史上下文特征。为了保持长时间序列的信息,引入了GIR来把全局高斯投影到当前视图,并通过浅层CNN编码为历史上下文特征。

History Fusion

使用Transformer模块融合多视图特征 F c F_{c} Fc和全局特征 F h F_{h} Fh得到增强的特征 F f F_{f} Ff,然后从这个编码了当前appearance和上下文的特征中预测更新per-pixel权重图 M ~ t \tilde{M}_{t} M~t,值在0-1之间。

Compressed Module

基于权重图 M ~ t \tilde{M}{t} M~t生成二维mask M t M{t} Mt,用于保留高置信度高斯或者删除冗余/低置信度高斯。被筛选过后的特征,再经过lightweight transformer和共享高斯head生成当前frame的高斯。

3.3 Gaussian-Image Representation (GIR)


这个算是最直接的创新点,GIR将3D高斯表示转化为2D结构化表示,使得:

  • 历史Gaussians可投影到当前视角并与图像特征对齐
  • 压缩和更新可以在2D局部操作完成(避免全局 3D 遍历)
  • 监督可以在2D空间进行

对于每个像素 ( u , v ) (u, v) (u,v), G v ∈ R H × W × 10 \mathbf{G}_{v} \in \mathbb{R}^{H \times\ W \times 10} Gv∈RH× W×10存储了projected 2D position μ u v \mu^{uv} μuv,协方差矩阵 v e c h ( Σ u v ) vech(\Sigma^{uv}) vech(Σuv)(用上三角向量vech压缩表示),opacity α u v \alpha^{uv} αuv 还有一个Gaussian ID I D u v ID^{uv} IDuv。

特点:

  • 每个像素对应一个显式高斯(非累加式体渲染),便于后续卷积、掩码操作
  • 保留Gaussian ID,可实现"身份感知"的冗余压缩与历史融合

GIR的核心在于如何从3D Gaussians生成2D GIR图。作者提出两种策略:

  • Nearest Rendering:选择当前视线下第一个可见的Gaussian,类似于深度优先的原则
  • Most-Contributive Rendering:选择颜色贡献最大的Gaussian,避免透明度混合模糊,更利于监督与压缩

更进一步,GIR不仅是数据表示,还支撑了LongSplat的关键机制:

  • 历史融合(History Fusion)

    • 将上一帧的Gaussians投影为GIR,获得历史上下文特征
    • 与当前帧的图像/几何特征在 2D 空间融合(Transformer)
    • 解决长序列场景下的时序一致性问题
  • 冗余压缩(Identity-Aware Compression)

    • 通过ID追踪跨帧的Gaussians
    • 在2D局部区域内比较重叠度(3D IoU),删除冗余高斯
    • 避免全局点云遍历,大幅降低计算量
  • 2D 空间监督

    • 通过GIR,原本需要3D运算的损失(如几何一致性、掩码)转化为2D
      Geometry Loss:预测 Gaussians 与压缩数据集(LightGaussian)的像素级对齐
      Mask Loss:基于 Gaussian ID 的3D IoU 计算,生成学习式压缩掩码
      RGB Loss:直接在2D图像空间计算渲染误差。
  • 轻量3D IoU计算

    • 借助GIR的ID映射,只需在局部像素邻域比较高斯的3D OBB(Oriented Bounding Box)
    • 避免全局点云两两比较,大幅降低冗余检测开销

3.4 Training

介绍了用到的各种loss函数。

4 Experiments

数据集:DL3DV-10K

硬件:8 × RTX 4090 + 4 × H100

结果:相较 DepthSplat,PSNR 提升 +3.6 dB,高斯数量减少 44%。


5 Conclusion

相关推荐
gptplus2 分钟前
AI + 云原生:正在引爆下一代应用的技术革命
人工智能·云原生
2401_8318960332 分钟前
机器学习(13):逻辑回归
人工智能·机器学习·逻辑回归
山烛1 小时前
决策树学习全解析:从理论到实战
人工智能·python·学习·算法·决策树·机器学习
马拉AI1 小时前
ICCV 2025|可灵团队新作 ReCamMaster:从单视频到多视角生成,多角度看好莱坞大片
计算机视觉·音视频
2zcode2 小时前
基于Matlab图像处理的液晶显示器表面缺陷检测与分类研究
人工智能·计算机视觉
白杨SEO营销3 小时前
白杨SEO:百度搜索开放平台发布AI计划是什么?MCP网站红利来了?顺带说说其它
人工智能·百度
CG_MAGIC3 小时前
3D 建模核心术语扫盲:拓扑、UV 展开、烘焙与 AO 贴图解析
3d·渲染·贴图·uv·拓扑·渲云渲染·ao 贴图
有Li3 小时前
探索医学领域多模态人工智能的发展图景:技术挑战与临床应用的范围综述|文献速递-医学影像算法文献分享
论文阅读·人工智能·医学生
陈大鱼头3 小时前
PromptPilot — AI 自动化任务的下一个环节
人工智能