3D 生成重建015-Feature 3DGS理解3DGS场景内的一切

33D 生成重建015-Feature 3DGS理解3DGS场景内的一切


文章目录

    • [0 论文工作](#0 论文工作)
    • [1 方法介绍](#1 方法介绍)
    • [2 实验效果](#2 实验效果)

0 论文工作

论文提出了一种名为"Feature 3DGS"的方法,该方法通过整合二维基础模型(如SAM和CLIP-LSeg)的特征场蒸馏,显著增强了三维高斯点渲染(3D Gaussian Splatting,3DGS)的功能。这种改进不仅限于新视角合成,还扩展到语义分割、语言引导的编辑和可提示的分割任务等。

主要贡献:

方法创新:提出了一种基于3DGS的新框架,用于通过二维模型指导进行特征场蒸馏。

性能提升:该方法相比基于NeRF的方法,训练和渲染速度提升至2.7倍,同时在语义分割任务中实现了23%的mIoU改进。

多样化应用:展示了方法在语义分割、语言引导的编辑及无提示的分割任务中的优越性能。

首次支持提示编辑:利用SAM模型实现了对三维场景的点和边界框提示操作。

核心改进:

针对NeRF方法的局限性(训练和渲染速度慢、连续性伪影),本文提出了一种并行N维高斯渲染器,并结合卷积解码器加速训练和渲染。

实验结果表明,该方法在保持高效的同时,能生成高质量的语义特征场和图像,适用于多种下游任务。

应用场景:

论文证明了其方法在新视角语义分割、语言引导编辑以及实时渲染等任务中的潜力,特别适用于需要高效且精确的三维语义表示场景。

在更早的Segment Anything in 3D with NeRFs中是更早用sam信息蒸馏到3D表示中。不过期间的nerf可以用新的分支来存放预测语音特征。在3DGS中原来的管道直接渲染高纬度的特征会很慢,论文提出先渲染一个低纬度特征再升维特征的方法进行加速。前期也有直接用CLIP,DINO的特征进行场景的理解的工作。
paper
github

1 方法介绍

下图是论文的结构图, ( x , ( q , s ) , c , α , f ) (x, (q,s), c, \alpha , f) (x,(q,s),c,α,f),q, s表示的是四元组表示的旋转平移,f是语义特征。语义的渲染方式跟图像的渲染方式一样。只不过如果直接渲染高位的SAM或者CLIP特征的话,维度会很高,这就会造成基础管线并不支持 这样的操作。为了简化问题,语义特征先优化一个低维的语义特征,然后进行升维。升维的信息用2d的基础模型进行监督。通过训练优化后语义信息就潜入到f中。也许我们可以找到新的方式来优化这个特征的潜入方式。i think.

2 实验效果

实验结果可以在网站找到,project

相关推荐
Liue612312314 小时前
基于YOLOv26的口罩佩戴检测与识别系统实现与优化
人工智能·yolo·目标跟踪
小二·5 小时前
Python Web 开发进阶实战 :AI 原生数字孪生 —— 在 Flask + Three.js 中构建物理世界实时仿真与优化平台
前端·人工智能·python
chinesegf6 小时前
文本嵌入模型的比较(一)
人工智能·算法·机器学习
珠海西格电力6 小时前
零碳园区的能源结构优化需要哪些技术支持?
大数据·人工智能·物联网·架构·能源
Black蜡笔小新6 小时前
视频汇聚平台EasyCVR打造校园消防智能监管新防线
网络·人工智能·音视频
珠海西格电力科技6 小时前
双碳目标下,微电网为何成为能源转型核心载体?
网络·人工智能·物联网·云计算·智慧城市·能源
2501_941837266 小时前
【计算机视觉】基于YOLOv26的交通事故检测与交通状况分析系统详解_1
人工智能·yolo·计算机视觉
HyperAI超神经6 小时前
加州大学构建基于全连接神经网络的片上光谱仪,在芯片级尺寸上实现8纳米的光谱分辨率
人工智能·深度学习·神经网络·机器学习·ai编程
badfl6 小时前
AI漫剧技术方案拆解:NanoBanana+Sora视频生成全流程
人工智能·ai·ai作画
杭州杭州杭州7 小时前
李沐动手学深度学习笔记(4)---物体检测基础
人工智能·笔记·深度学习