开卷可扩展自动驾驶(OpenDriveLab)

一种通用的视觉点云预测预训练方法

开卷可扩展自动驾驶(OpenDriveLab)

自动驾驶新方向?ViDAR:开卷可扩展自动驾驶(OpenDriveLab)-CSDN博客

创新点

在这项工作中,本文探索了专为端到端视觉自动驾驶应用量身定制的预训练方法,不仅包括感知,还包括预测和规划。本文构建了一个新的 pretext tasks ------视觉点云预测(见图2),以充分利用原始图像-激光雷达序列背后的语义、三维几何和时间动态信息,并考虑到可扩展性(being scalable)。它从历史视觉图像中预测未来的点云。

视觉点云预测的主要理念在于对语义、三维结构和时间建模的同时监督。通过迫使模型从历史数据预测未来,它监督了场景流和物体运动的提取,这对于时间建模和未来估计至关重要。同时,它涉及从图像重建点云,这监督了多视角几何和语义建模。因此,来自视觉点云预测的特征嵌入了几何和时间提示(geometric and temporal hints)的信息,这对于同时进行感知、跟踪和规划都是有益的。

为此,本文提出了 ViDAR,一种用于预训练的通用视觉点云预测方法(a general visual point cloud forecasting approach)(见图2)。ViDAR 包括三个部分:历史编码器(History Encoder)、潜在渲染操作符(Latent Rendering operator)和未来解码器(Future Decoder)。历史编码器是预训练的目标结构。它可以是任何视觉BEV编码器,用于将视觉序列嵌入到BEV空间。这些BEV特征被送入潜在渲染操作符。潜在渲染在使 ViDAR 提升下游性能方面发挥着至关重要的作用。它解决了 射线形状BEV特征问题(ray-shaped BEV features issue),建模三维几何潜在空间,并连接编码器与解码器。未来解码器是一个自回归 transformer ,它利用历史BEV特征迭代地预测任意时间戳的未来点云。

相关推荐
盲盒Q4 分钟前
《频率之光:共振之战》
人工智能·硬件架构·量子计算
飞哥数智坊5 分钟前
DeepSeek V3.1 发布:我们等的 R2 去哪了?
人工智能·deepseek
爱分享的飘哥17 分钟前
第八十三章:实战篇:文 → 图:Prompt 控制图像生成系统构建——从“咒语”到“神作”的炼成!
人工智能·计算机视觉·prompt·文生图·stablediffusion·diffusers·text-to-image
ciku27 分钟前
Spring Ai Advisors
人工智能·spring·microsoft
努力还债的学术吗喽30 分钟前
【速通】深度学习模型调试系统化方法论:从问题定位到性能优化
人工智能·深度学习·学习·调试·模型·方法论
云边云科技1 小时前
零售行业新店网络零接触部署场景下,如何选择SDWAN
运维·服务器·网络·人工智能·安全·边缘计算·零售
audyxiao0011 小时前
为了更强大的空间智能,如何将2D图像转换成完整、具有真实尺度和外观的3D场景?
人工智能·计算机视觉·3d·iccv·空间智能
Monkey的自我迭代1 小时前
机器学习总复习
人工智能·机器学习
大千AI助手1 小时前
GitHub Copilot:AI编程助手的架构演进与真实世界影响
人工智能·深度学习·大模型·github·copilot·ai编程·codex
用户5191495848452 小时前
耶稣蓝队集体防护Bash脚本:多模块协同防御实战
人工智能·aigc