直播预告!面向几何与运动理解的流式前馈 3D/4D 重建

三维/四维重建技术正经历一场范式革命:从高昂的全局优化向高效的前馈式(Feed-forward)架构全面转型。

  • 如何在长序列处理中实现极致的内存效率?
  • 如何在统一框架下同时实现几何与运动的高精度建模?

5月19日晚8点青稞Talk 126期,南洋理工大学(NTU)MMLab 博士生罗奕航,将直播分享《STream3R & 4RC: 面向几何与运动理解的流式前馈 3D/4D 重建》。

STream3R:基于 Causal Transformer 的流式 3D 重建

论文:STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

链接:https://arxiv.org/abs/2508.10893

代码:https://nirvanalan.github.io/projects/stream3r

传统的重建方法在长序列下往往受限于简单的内存机制,难以扩展。STream3R 将 3D 重建重构为一个 Decoder-only Transformer 的序列配准问题。

  • 因果注意力流: 借鉴大语言模型(LLM)的成功经验,引入因果注意力机制,像处理语言流一样高效处理图像序列。
  • 极致泛化能力: 通过大规模 3D 数据集预训练,不仅能胜任静态场景,在动态场景及在线 3D 感知中也展现出极强韧性。

4RC:随时随地的条件查询 4D 重建

论文:4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

链接:https://arxiv.org/pdf/2602.10094

代码:https://yihangluo.com/projects/4RC/

现有的 4D 方法往往将运动与几何解耦,或仅能产生稀疏轨迹。4RC 提出了一个"一次编码,随时随地查询(Encode-once, Query-anywhere and anytime)"的统一前馈框架。

  • 全时空潜空间: 将整个视频编码为紧凑的空间-时间潜变量,支持在任意目标时间戳高效查询 3D 几何与运动。
  • 极简分解: 通过将 4D 属性分解为基础几何与随时间变化的相对运动,大幅提升了学习效率与重建质量。

分享嘉宾

罗奕航,南洋理工大学(NTU)MMLab 博士生,师从Prof. Chen Change Loy和 Prof. Xingang Pan。他的研究方向主要聚焦于 3D/4D 空间智能。

主题提纲

STream3R & 4RC: 面向几何与运动理解的流式前馈 3D/4D 重建

1、回顾近年来前馈式 3D 重建技术的发展脉络

2、STream3R:基于因果注意力序列配准的流式前馈三维重建

3、4RC:通过条件查询统一框架实现 4D 重建与运动建模

4、未来方向探讨 & AMA (Ask Me Anything)环节

直播时间

5月19日(周二)20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号:青稞 AI】上进行进行直播,欢迎预约观看!

相关推荐
金融Tech趋势派7 小时前
汽车经销服务如何提升咨询效率?企业微信AI SCRM实现标准化与即时化
人工智能
企业知识库布道者7 小时前
从 OCR 到文档结构理解:MinerU-Popo 对 RAG 文档解析链路的补全
人工智能·ocr·私有化部署·知识库·rag·企业知识库
AC赳赳老秦7 小时前
用 OpenClaw 整理学习笔记:自动提取视频课程内容、生成文字笔记、分类归档
大数据·运维·数据库·人工智能·学习·deepseek·openclaw
宸津-代码粉碎机7 小时前
Spring AI企业级实战|Agent长期记忆持久化落地,彻底解决多轮对话上下文丢失问题
java·开发语言·人工智能·后端·python·spring
jinxindeep7 小时前
字节Lance:轻量级原生统一多模态模型,以多任务协同实现理解与生成的新范式
人工智能·深度学习·计算机视觉
月诸清酒7 小时前
苹果WWDC2026:Siri AI独立应用、文字对话、屏幕理解
人工智能
大蚂蚁2号7 小时前
Python链式调用深度拆解:从语法糖到底层架构,入门到工业级落地
人工智能
云烟成雨TD7 小时前
Spring AI 1.x 系列【58】提示词工程(Prompt Engineering)
java·人工智能·spring
FII工业富联科技服务7 小时前
AI+3D世界模型:重构园区安防的“可感知、可推演、可进化”
大数据·人工智能·3d·ai·制造