技术栈

cvpr2025

大江东去浪淘尽千古风流人物
2 天前
网络·数码相机·3d·transformer·slam·3d重建·cvpr2025
【VGGT】统一3D重建:单网络同时预测相机位姿、深度图、点云与3D轨迹的前馈Transformer架构深度解析VGGT(Visual Geometry Grounded Transformer)是Meta Research提出的1.2B参数前馈Transformer,能在1秒内从1~100+张图像中同时推断相机参数、点云图、深度图和3D点轨迹。通过Alternating Attention机制(帧内与全局自注意力交替)替代传统Cross-Attention,在相机估计、多视图深度、稠密重建和3D跟踪四项任务上均达到SOTA,且无需迭代优化。论文发表于CVPR 2025。
m0_65010824
6 个月前
论文阅读·扩散模型·端到端自动驾驶·阶段扩散策略·高级联扩散解码器·cvpr2025
DiffusionDrive:面向端到端自动驾驶的截断扩散模型在端到端自动驾驶领域,传统扩散模型应用面临计算开销大、模态坍缩问题,现有多模态规划方法依赖大量锚点。华中科技大学与地平线机器人团队提出的 DiffusionDrive,创新设计截断扩散策略(锚定高斯分布 + 2 步去噪)与级联扩散解码器,在 NAVSIM 达 88.1 PDMS,NVIDIA 4090 上 45 FPS,兼顾性能与实时性。
我是有底线的