3D 生成重建019-LERF用文本在Nerf中开启上帝之眼

3D 生成重建019-LERF用文本在Nerf中开启上帝之眼


文章目录

    • [0 论文工作](#0 论文工作)
    • [1 论文方法](#1 论文方法)
    • [2 实验结果](#2 实验结果)

0 论文工作

人类利用自然语言描述物理世界,根据各种特性(视觉外观、语义、抽象关联)寻找具体的3D位置。在这项工作中,作者提出了语言嵌入辐射场(LERF),这是一种将来自现成模型(如CLIP)的语言嵌入整合到NeRF中的方法,从而能够在三维空间中进行这种类型的开放式语言查询。LERF通过沿训练光线进行体渲染CLIP嵌入,从而在NeRF内部学习一个密集的多尺度语言场,并通过在训练视图中监督这些嵌入来提供多视图一致性,并使底层语言场平滑化。优化后,LERF能够实时交互式地提取各种语言提示的3D相关性图,这在机器人技术、理解视觉语言模型和与3D场景交互方面具有潜在的应用案例。LERF支持像素对齐的零样本查询,无需区域建议或掩码,能够分层地处理长尾开放词汇查询。
LanSplat整体上是将这个论文的思想迁移到3DGS上,在这个过程中去解决一些新的问题。clip 当时出了,Sam应该还没发表。基础模型的进步显著促进了应用研究的进步。
paper
github

1 论文方法

因为nerf是像素级别的渲染,所以对齐的时候和边界这些需要做更多的考虑。论文使用多尺度的信息,当然这个和CLIP主要关注相似度有关系。SAM之后语音的定位可以更加准确了。因为nerf采用的是神经网络架构,跟图形渲染管道无关,在这个特征的维度上不需要额外的考虑。通过增加新的分支从CLIP中蒸馏信息就可以。

RF 的主要创新之处在于:

将CLIP语言嵌入融入NeRF: 这是LERF的核心创新。它直接将预训练的CLIP模型的输出嵌入到NeRF中,无需对CLIP进行微调或依赖于特定数据集,扩展了NeRF的应用范围,使其能够理解和响应自然语言。以往方法通常需要依赖于人工标注的数据集或其他的图像特征提取方法。

多尺度语言场: LERF 学习一个多尺度的语言场,这使得它能够处理不同粒度级别的语义信息。例如,它可以同时识别"杯子"和"杯子里的水",而不需要依赖于人为定义的物体尺度或层次结构。

像素级对齐的零样本查询: LERF实现了像素级对齐的零样本查询,这意味着它能够直接根据自然语言查询在三维场景中定位和分割物体,而无需依赖于目标检测或分割等中间步骤。

高效的实时查询: 经过训练后,LERF能够实时地生成三维场景中物体的相关性图,这对于机器人导航、虚拟现实等实时交互应用具有重要意义。

总的来说,LERF通过将强大的自然语言处理能力与NeRF模型结合,实现了对三维场景的开放词汇查询,在效率和精度方面都取得了显著的提升。其创新之处在于其方法的简洁性和高效性,以及其在处理开放词汇查询方面的出色表现。

2 实验结果

相关推荐
算AI36 分钟前
人工智能+牙科:临床应用中的几个问题
人工智能·算法
几米哥1 小时前
从思考到行动:AutoGLM沉思如何让AI真正"动"起来
llm·aigc·chatglm (智谱)
凯子坚持 c1 小时前
基于飞桨框架3.0本地DeepSeek-R1蒸馏版部署实战
人工智能·paddlepaddle
你觉得2052 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
8K超高清2 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
hyshhhh2 小时前
【算法岗面试题】深度学习中如何防止过拟合?
网络·人工智能·深度学习·神经网络·算法·计算机视觉
薛定谔的猫-菜鸟程序员2 小时前
零基础玩转深度神经网络大模型:从Hello World到AI炼金术-详解版(含:Conda 全面使用指南)
人工智能·神经网络·dnn
币之互联万物3 小时前
2025 AI智能数字农业研讨会在苏州启幕,科技助农与数据兴业成焦点
人工智能·科技
云卓SKYDROID3 小时前
科技赋能消防:无人机“挂弹灭火“构筑森林防火墙!
人工智能·科技·无人机·科普·云卓科技
gaoshengdainzi3 小时前
镜片防雾性能测试仪在自动驾驶与无人机领域的创新应用
人工智能·自动驾驶·无人机·镜片防雾性能测试仪