直播预告!面向几何与运动理解的流式前馈 3D/4D 重建

三维/四维重建技术正经历一场范式革命:从高昂的全局优化向高效的前馈式(Feed-forward)架构全面转型。

  • 如何在长序列处理中实现极致的内存效率?
  • 如何在统一框架下同时实现几何与运动的高精度建模?

5月19日晚8点青稞Talk 126期,南洋理工大学(NTU)MMLab 博士生罗奕航,将直播分享《STream3R & 4RC: 面向几何与运动理解的流式前馈 3D/4D 重建》。

STream3R:基于 Causal Transformer 的流式 3D 重建

论文:STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

链接:https://arxiv.org/abs/2508.10893

代码:https://nirvanalan.github.io/projects/stream3r

传统的重建方法在长序列下往往受限于简单的内存机制,难以扩展。STream3R 将 3D 重建重构为一个 Decoder-only Transformer 的序列配准问题。

  • 因果注意力流: 借鉴大语言模型(LLM)的成功经验,引入因果注意力机制,像处理语言流一样高效处理图像序列。
  • 极致泛化能力: 通过大规模 3D 数据集预训练,不仅能胜任静态场景,在动态场景及在线 3D 感知中也展现出极强韧性。

4RC:随时随地的条件查询 4D 重建

论文:4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

链接:https://arxiv.org/pdf/2602.10094

代码:https://yihangluo.com/projects/4RC/

现有的 4D 方法往往将运动与几何解耦,或仅能产生稀疏轨迹。4RC 提出了一个"一次编码,随时随地查询(Encode-once, Query-anywhere and anytime)"的统一前馈框架。

  • 全时空潜空间: 将整个视频编码为紧凑的空间-时间潜变量,支持在任意目标时间戳高效查询 3D 几何与运动。
  • 极简分解: 通过将 4D 属性分解为基础几何与随时间变化的相对运动,大幅提升了学习效率与重建质量。

分享嘉宾

罗奕航,南洋理工大学(NTU)MMLab 博士生,师从Prof. Chen Change Loy和 Prof. Xingang Pan。他的研究方向主要聚焦于 3D/4D 空间智能。

主题提纲

STream3R & 4RC: 面向几何与运动理解的流式前馈 3D/4D 重建

1、回顾近年来前馈式 3D 重建技术的发展脉络

2、STream3R:基于因果注意力序列配准的流式前馈三维重建

3、4RC:通过条件查询统一框架实现 4D 重建与运动建模

4、未来方向探讨 & AMA (Ask Me Anything)环节

直播时间

5月19日(周二)20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号:青稞 AI】上进行进行直播,欢迎预约观看!

相关推荐
一次旅行3 小时前
HyperTool:突破传统工具调用限制,让Agent更高效执行复杂任务
人工智能
陈天伟教授3 小时前
图解人工智能(58)人工智能应用-围棋国手
人工智能·语音识别·机器翻译
闻道参看3 小时前
2026年AI优质企业培训系统综合测评:合规管控/数据量化
人工智能
老虾头3 小时前
科技贴近烟火:本地化 AI,赋能各行各业日常经营
人工智能
毒爪的小新3 小时前
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务
linux·人工智能·ai·语言模型·vllm
老大白菜3 小时前
25美元,DIY开源可穿戴智能AI眼镜:Arduino+乐鑫ESP32+DeepSeek项目
人工智能
岁月宁静4 小时前
RAG 文档摄入全链路,从原理到生产落地
vue.js·人工智能·python
小和尚同志4 小时前
AI 自动化测试探索(一):Playwright MCP
前端·人工智能·aigc
硅谷秋水5 小时前
面向长上下文自动驾驶的规划对齐Token压缩
人工智能·深度学习·机器学习·计算机视觉·自动驾驶