cvpr2025

大江东去浪淘尽千古风流人物

【VGGT】统一3D重建：单网络同时预测相机位姿、深度图、点云与3D轨迹的前馈Transformer架构深度解析VGGT（Visual Geometry Grounded Transformer）是Meta Research提出的1.2B参数前馈Transformer，能在1秒内从1~100+张图像中同时推断相机参数、点云图、深度图和3D点轨迹。通过Alternating Attention机制（帧内与全局自注意力交替）替代传统Cross-Attention，在相机估计、多视图深度、稠密重建和3D跟踪四项任务上均达到SOTA，且无需迭代优化。论文发表于CVPR 2025。

DiffusionDrive：面向端到端自动驾驶的截断扩散模型在端到端自动驾驶领域，传统扩散模型应用面临计算开销大、模态坍缩问题，现有多模态规划方法依赖大量锚点。华中科技大学与地平线机器人团队提出的 DiffusionDrive，创新设计截断扩散策略（锚定高斯分布 + 2 步去噪）与级联扩散解码器，在 NAVSIM 达 88.1 PDMS，NVIDIA 4090 上 45 FPS，兼顾性能与实时性。

我是有底线的