51c自动驾驶~合集45

我自己的原文哦~ https://blog.51cto.com/whaosoft/13020031

#运动控制和规划控制需要掌握的技术栈~

各大垃圾家电造车厂又要开始了~~~​

1、ROS的通信方式

李是Lyapunov的李:谈谈ROS的通信机制

话题通信和服务通信,其中话题通信是通过发布和订阅话题实现,属于单向通信,订阅方被动接收信息;服务通信由请求方(Client)和应答方(Server)组成,通过加入一个请求机制,在应答处理后返回信息。

建议看看ROS2,在ROS2中,Master这个角色已经没有了:ROS1架构下,所有节点需要使用Master进行管理

  • ROS2使用基于DDS的Discovery机制,和Master说拜拜
  • 通讯换成了DDS(Data Distribution Service)
  • ROS1:TCPROS/UDPROS
  • ROS2:DDS

2、智能指针

FOCUS:现代 C++:一文读懂智能指针

​​​https://zhuanlan.zhihu.com/p/150555165​​​

3、循环引用解决方法

C++ 智能指针中的循环引用_51CTO博客_c++智能指针

​​​https://blog.51cto.com/u_12204415/3804223​​​

4、vector内存问题

堆区是一块非常灵活的区域,因为使用这块空间需要程序员自己申请和释放空间,这就使得我们可以根据自己的需求来确定每个空间的使用周期,但是由此引发的问题就是,非常容易导致内存泄漏或者重复释放的问题,这两种问题同样是编译时不会报错。

arrary的空间是由系统分配的,在编译时已经确定,存放在栈区

vector的空间可由程序员动态分配,可动态增长,在运行时才确定大小,存放在堆区​

5、迭代最小二乘和卡尔曼滤波

最小二乘:不需要正态分布,仅仅只需要误差均值为0,每次测量同方差且互不相关

卡尔曼滤波:

转自知乎某高赞回答:https://www.zhihu.com/question/47559783/answer/2988744371

通俗来讲,卡尔曼滤波解决的是:我需要用传感器测量一个数据,想要提高测量精度。

1,如果我有很多个传感器,那怎么办?

答:取多个传感器的平均值。

2,如果我的多个传感器精度不一样,那怎么办?

答:对于精度高的传感器,我多相信一点,对于精度低的,我少相信一点,然后综合考虑他们给出的结果,在数学上叫做"加权平均"

3,在实时测量中,我并没有很多传感器,但是我还是想要提高精度,怎么办。

答:对于系统现在的状态进行观测,并预测下一个状态可能的值,把这个预测当做一个传感器来用,进行加权平均,例如测量位置:"目前gps传感器测到位置在正东方向5米处,速度为正东方向1米/秒,那么,下一秒预测的值是正东方向6米处,在下一秒的测量数据中,会综合考虑预测值和实际测量值。"

Mockingjay:卡尔曼滤波(Kalman filter) 含详细数学推导

详解卡尔曼滤波原理-CSDN博客​

6、C++中常用的最小二乘的求解器

【Ceres基本使用方法】使用Ceres拟合曲线求解最小二乘问题_git clone ceres-CSDN博客

​​​https://blog.csdn.net/weixin_44543463/article/details/120796525​

非线性优化工具Ceres如何指定优化算法?

​​​https://www.zhihu.com/question/500343339/answer/3301069496​​​

7、MPC的原理和基本步骤

MPC模型预测控制原理和Matlab以及Python代码实现_模型预测控制代码-CSDN博客

​​​https://blog.csdn.net/weixin_44924725/article/details/128050063​​​

8、单例模式

我给面试官讲解了单例模式后,他对我竖起了大拇指!-CSDN博客

​​​https://blog.csdn.net/weixin_41949328/article/details/107296517​​​

9、最优化计算方法

知识比较多,先推荐把数值分析相关东西学了,然后可以看一下最优化计算方法及其MATLAB程序实现(马昌凤版本),附带课后习题的部分答案,可做参考。最优化方法及其matlab程序设计 马昌凤 课后答案​

10.S曲线和梯形曲线

S曲线是针对于速度而言,大致分为七段

关于运动控制中S型速度曲线的简单演示(C++实现)_速度曲线算位置曲线-CSDN博客

​​​https://blog.csdn.net/DLS756/article/details/104553385​

梯形加减速算法详解及示例

​​​https://blog.csdn.net/Galaxy_Robot/article/details/129432311​​​

11.SVD分解

对于奇异值,它跟我们特征分解中的特征值类似,在奇异值矩阵中也是按照从大到小排列,而且奇异值的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说,我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。

可以用作主成分分析(PCA)

SVD原理与应用

​​​https://blog.csdn.net/qq_58535145/article/details/122651843​

奇异值分解(SVD)原理与在降维中的应用_刘建平 svd算法-CSDN博客

​​​https://blog.csdn.net/bubble_story/article/details/79988019​​​

12.商用PID形式

PID基本上都会,但是实际运用中,和理论分析还是有区别的,给出商用PID控制器表达式

基本解释:

①比例微分:带滤波,抑制测量噪声增大;

②微分先行:当输入频繁变化时,运用微分对其求导会影响系统表现,拿掉R(s)​

13.直线插补

【电机绘图】:插补算法(一)-直线插补-逐点比较法-CSDN博客

​​​https://blog.csdn.net/qq_64257614/article/details/132156073​

需要注意两点:

(1)区分不同的象限

(2)根据F(x,y)的取值,判断是向x,还是向y运动​

14.S曲线和插补

基于S型曲线的连续多段曲线插补平滑过渡的规划算法(Matlab)_s型曲线平滑算法matlab-CSDN博客

​​​https://blog.csdn.net/qq_26565435/article/details/98789361​

分段的首尾速度为0​

15.BLDC和PMSM的区别

BLDC(无刷直流电机)和PMSM(永磁同步电机)的区别_集中绕组pmsm和bldc有什么区别-CSDN博客

​​​https://blog.csdn.net/weixin_41469013/article/details/133722827​

驱动信号是最大区别,PMSM正弦波驱动,BLDC方波驱动​

16.FOC介绍

FOC矢量控制原理&SVPWM原理及实现_foc控制-CSDN博客

​​​https://blog.csdn.net/IOTBOT/article/details/138541200​​​

17.DOB扰动观测器

非线性扰动观测器(NDOB)-CSDN博客

​​​https://blog.csdn.net/weixin_43903639/article/details/128881666​​​

18.扰动抑制和噪声衰减的矛盾

对于扰动抑制而言,应当使灵敏度函数的幅值较小;

对于噪声衰减而言,应当使补灵敏度函数的幅值较小;

扰动项集中在低频段,噪声集中在高频段。

并且 灵敏度函数+补灵敏度函数=1(限制了两者不可能同时很小),

因此,在低频段,让灵敏度函数小一些;在高频段,让补灵敏度函数小一些。​

19.电机类型区分

电动机分为直流电机和交流电机两大类,其中交流电机又分为异步电机(转子的磁场旋转速度跟不上定子的旋转磁场)和同步电机,中国研究永磁同步电机多的原因在于中国的稀土资源丰富,国外挺多研究三相异步电机。

#禾赛科技传裁员数百人

突发!:N+1,无年终奖

据爆料称:激光雷达科技企业禾赛科技正在开启裁员计划,据相关消息显示,此次裁员比例可能达到数百人。赔偿N+1,无年终奖。

根据禾赛科技最新公告:禾赛12月激光雷达交付量突破10万台,成为全球首个达成单月交付量超过10万台的激光雷达企业。值得一提的是,禾赛面向机器人市场单月交付激光雷达超过2万台,广泛覆盖移动机器人、配送机器人、清扫机器人、割草机器人等多个领域。

上海禾赛科技有限公司2014年在嘉定创立,最初致力于激光气体传感器的研发工作,但因该领域的市场规模较为有限,开启了转型之路。

2016年,禾赛科技针对无人驾驶领域陆续推出了三款激光雷达,正式进入激光雷达领域。此后,禾赛科技一直聚焦于激光雷达产品的研发、制造和销售。

2023年2月9日,禾赛科技在纳斯达克正式挂牌上市,发行价为19美元,募资额达1.9亿美元。上市首日,禾赛科技的股价表现极为出色,开盘大涨25%,报23.75美元,盘中股价一度达到24.44美元,最终收于21.05美元,上涨10.79%,市值达到26.21亿美元。这一成绩使得禾赛科技成为过去一年多时间里,赴美上市的中概股中规模最大的首次公开募股。

目前,禾赛科技拥有7个激光雷达系列产品,包括AT系列、FT系列等,覆盖ADAS市场、自动驾驶市场和机器人领域。

第三季度财报显示,禾赛科技实现营收5.4亿元人民币,同比增长 21.1%。激光雷达季度总交付量达13.42万台,同比大幅增长182.9% ;业务综合毛利率为47.7%,实现了自2022年第二季度以来的最高水平。

从目前的毛利压下来的角度来看,要盈利必须要控制成本,所以裁员是禾赛的工具箱一种武器。目标ADAS的激光雷达规模扩大到100万(2025年) 2024年Q4实现盈利,然后继续在2025年盈利。

天风证券海外团队指出,禾赛科技目前已覆盖理想、小米、零跑、比亚迪、华为、长城、长安等国内客户。截至2024年底,公司已累计获得来自21家车企的超过100款前装量产定点车型。

对于禾赛科技的此次裁员事件,你怎么看?欢迎文末留言讨论、转发朋友圈,也欢迎加入技术交流群,和众多技术同行一起交流讨论。

近期,汽车、自动驾驶、机器人等市场可谓几家欢喜几家愁,有成功上市的、有顺利融资的、有积极ipo冲刺中的,也有在业务转型的,还有大规模调整的。。。。。

#2025,大佬们这样谈自动驾驶

2024年各大车企的智能驾驶相继交卷了,据统计目前已经有十余家企业宣布端到端量产上车。这其中最具代表性的便是理想汽车的One Model快慢双系统---E2E+VLM架构,慢系统VLM用于指导端到端快系统,并且宣称有望在今年实现L3自动驾驶。而小米汽车也在奋力追赶,并在十二月宣布大模型上车。​

理想汽车

首先是,理想汽车在某汽车年会上分享了快慢系统理论在自动驾驶中的实践方案

来源:https://www.bilibili.com/video/BV1qyYxeyE5t/?spm_id_from=333.337.search-card.all.click\&vd_source=60762b2741beebb14f0eaac7c46cc65f

受到Daniel Kahneman的双系统《思考,快与慢》的启发,理想汽车设计了快慢双系统框架,拥有车端和云端两个算法。快系统是从输入直接到轨迹输出号的端到端模型;慢系统是视觉语言大模型,算力巨大,利用CoT逻辑链一步步推演;同时还用一个世界模型进行强化学习和验证。

快系统是一个统一的端到端4D One Model模型,输入包括摄像头、激光雷达、GPS定位、车辆位姿、IMU导航信息,输入带有时空记忆的BEV特征提取器,经过一个transformer解码器,解码出四类输出:感知类的障碍物和道路结构、动态静态OCC、规控轨迹。在训练方法上,感知方面使用监督训练,对感知结果进行监督式学习,加速收敛。在规控学习方面还加入了模仿学习和强化学习。

慢系统是一个视觉语言大模型(VLM),其中的特别之处在于根据prompt灵活调整模型的注意力,来提升模型对各种输入信息的注意力。最后的输出是CoT,第一步理解当前环境,第二步做出合理决策,第三步给出参考信息,并通过解剖法返回给系统1(快系统),作为系统1的模型输入及预处理,从而实现快慢系统的配合。

华为

华为近日发布乾崑ADS 3.0,相对于之前实现了架构升级、安全升级、场景升级、泊车代驾升级。首先是感知架构升级,从ADS 2.0的BEV+GOD到ADS 3.0的仅保留GOD对异性障碍物的识别,除此以外增加对场景的理解(包括红绿灯状态、车流信息等)。激光雷达的全天候和小目标检测能力进一步提升,通过降噪提高对扬尘、雨雾、飞雪等场景的适应能力,对小目标物体(路肩、轮胎、锥桶等)实现远距离探测。将4T4R技术代入4D高精度毫米波雷达,实现探测能力提升。

ADS 3.0实现了端到端架构的商用,仅采用GOD感知网络,使用PDP网络进行预决策与规划。采用华为云端训练,算力达到3.5E FLOPS,每天学习3000万+公里,每5天迭代一次。

来源:https://www.bilibili.com/video/BV15p421Q7t4/?spm_id_from=333.337.search-card.all.click\&vd_source=60762b2741beebb14f0eaac7c46cc65f

主动安全方面使用CAS 3.0全向防碰撞系统,支持前向、后向、侧向主动安全。相对于先前版本,CAS 3.0利用ESA紧急转向辅助实现横向避障(行人、电动车等),可以跨车道避让,新增横穿、斜穿车辆等场景。此外,实现了全场景贯通"一键"车位到车位导航抵达,可以直接从公开道路到园区道路,从园区地面到地下车位,而非像常规的导航,只到园区。不止于记忆,支持任意车位。

在泊车领域超越老司机,速度比老司机泊车快20%,极窄车位(车身+40cm)、极窄通道也可泊车。并且离车即走、轻松省时,只需选定目的车位,人下车即走,车自主泊入车位。​

比亚迪

比亚迪无图驾驶技术领先,不依赖城市高精地图。近日发布了2025款汉,达到L2+级别的智能驾驶辅助。其中2025款汉DM-i及汉EV车型同时搭载了比亚迪王朝系列首个**DiPilot 300"天神之眼"**高阶智能驾驶辅助系统。这一系统依托于英伟达OrinX高算力芯片,其算力高达惊人的254TOPS,为智能驾驶提供了强大的计算支持。为了实现全场景覆盖的智能驾驶体验,车辆配备了31个智驾传感器,包括5颗毫米波雷达、1颗激光雷达、12个超声波雷达以及全车13个高清摄像头。整车电机电控实现毫秒级响应,使得2025款汉能够在城市领航、高快领航等复杂驾驶场景中游刃有余,并且还支持先进的代客泊车等功能,为用户带来前所未有的智能驾驶享受。

小米汽车

小米在近日的发布会上展示了三项自研感知技术。第一是变焦BEV,根据驾驶场景自动调节感知范围,比如高速上看得远,地库泊车时看得清,比如高速识别范围250m,城市识别范围160米、精度0.2米,地库识别精度5cm。第二项技术是超分辨率占用网路,精准识别异形障碍物。加入矢量算法,精度小于0.1m,将物体描述为连续曲面;并配合一键降噪,降低雨雪天气对感知识别的干扰。第三项技术是道路大模型,不依赖城市高精地图,能够实时生成道路拓扑,准确生成形式引导线,应对道路修路这类情况的发生。

来源:https://www.bilibili.com/video/BV1zw411g76f/?spm_id_from=333.337.search-card.all.click\&vd_source=60762b2741beebb14f0eaac7c46cc65f​

蔚来

蔚来提出的群体智能架构,通过海量数据的自动采集和挖掘,累积了10万+小时高价值数据,不仅带来了通用能力的提升,还实现了对全局的深刻洞察。这一架构能够洞察真实场景分布,既包括常规的也涵盖了长尾及罕见场景,确保了场景覆盖的全面性。在此基础上,蔚来通过100万+次的验证和10万公里的实际道路测试,快速验证场景,实现了技术的快速进化。针对各种复杂场景,蔚来采用了高效迭代和验证的方法,不断改据片段,提升模型精度,确保每一次迭代都能选出更强的版本。

基于每月超2000万公里的真实里程验证,蔚来实施了大规模自动化测试,每条单一路线都经过5次以上的自动准出验证,确保了验证的细致与准确。这种由场景到路线的验证方式,不仅提升了验证效率,也使得自动驾驶系统能够合理应对各种复杂情况。自动化路线准出的引入,更是进一步加速了技术的成熟与落地。

来源:https://www.bilibili.com/video/BV1Hm41127T6/?spm_id_from=333.337.search-card.all.click\&vd_source=60762b2741beebb14f0eaac7c46cc65f​

小鹏汽车

小鹏汽车是全球唯二实现端到端大模型量产落地的车企,拥有长达10年的智能化量产落地经验。每年投入高达35亿的AI费用,小鹏已积累了2.51E FLOPS的最大AI算力储备,这一「端到端大模型」技术让小鹏的智驾技术进步前所未有地加速。小鹏汽车定义了「全国都好用」的新标准,即不限城市(所有城市均可使用)、不限路线(覆盖所有公开道路)、不限路况(包括掉头、环岛、窄路等复杂场景)。凭借XNGP系统,小鹏已成为行业首个走遍全国2595个城市,经历756万公里实车测试的车企。在2024年第四季度,小鹏将实现真正的「门到门」体验,不仅打通高速与城市场景,包括ETC收费站,还在最新一轮7月29日的OTA内测中,AI代驾已实现了自动过ETC的功能;同时,小鹏也将打通行车与泊车场景,实现停车场闸机的无缝对接,预计在2024年第四季度,AI代驾将能提供从车位到车位的完整体验。此外,小鹏还致力于打通园区内部道路,预计到2024年第四季度,全国道路将全部实现打通,为用户提供前所未有的便捷与智能出行体验。

来源:https://www.bilibili.com/video/BV1wjbFeNE2J/?spm_id_from=333.1007.top_right_bar_window_history.content.click\&vd_source=60762b2741beebb14f0eaac7c46cc65f​

智己汽车

智己汽车LS7发布了前所未有的智能3.0系统,其核心是全域融合的智舱IMOS 2.0,该系统引入了全新的直觉式人机交互方式,大大降低了驾驶强度,颠覆了传统的驾驶体验。通过智能驾驶技术与高精度地图的融合,智己LS7实现了"空中领航"的功能体验,为驾驶者带来了全新的导航与驾驶辅助享受。此外,A柱盲区影响辅助在转弯时能够呈现左右盲区,进一步提升了行车安全。智己LS7还全面打造了行车场景下的多车社交乐趣,驾驶者可以通过"Say Hi"功能与路上偶遇的另一位智己车友进行交流,增添了驾驶的趣味性和互动性。

在硬件方面,智己LS7搭载了英伟达OrinX超高算力智驾芯片,并配备了"隼式"双激光雷达布置方案,这一方案使得车辆能够看得远、看得广、看得清。前向可视范围接近180°,侧视野扩展至B柱附近,提供了全面的环境感知能力。同时,该方案还具备安全冗余设计,即使一颗激光雷达失效,系统仍可正常工作。高视野和越视功能使得车辆能够识别遮挡物后方的目标,最远探测距离达到200米。

在智能驾驶辅助功能方面,高速领航辅助NOA已在全国重点城市陆续上线,为驾驶者提供了更加便捷的高速驾驶体验。基于高精地图的城市领航辅助也计划在年底前开始公测。值得一提的是,智己LS7采用了DDLD算法来取代高精地图,这一创新技术将进一步推动智能驾驶技术的发展。

来源:https://www.bilibili.com/video/BV11o4y1v78d/?spm_id_from=333.337.search-card.all.click\&vd_source=60762b2741beebb14f0eaac7c46cc65f​

长安汽车

长安汽车的自动驾驶解决方案主要包括以下几个方面:首先,智驾技术方面,长安汽车融入了全速ACC自适应巡航,该技术不仅涵盖了定速巡航、跟车控制、启停控制、弯道控制四大技术,还特别适用于城市拥堵路段和高速公路巡航。此外,车道偏离预警系统(LDW)通过车辆前置摄像头实时监测前方路面车道线,计算车轮离车道线的距离,在意外偏离车道时及时提醒驾驶员。预警辅助制动系统(PAB)则利用车载毫米波雷达实时监测与前车的距离,一旦车距过近,系统将发出报警并采取点刹措施以防碰撞。其次,智能车载互联系统方面,长安汽车的In Call 3.0+T-Box系统具备强大的智能互联和语音识别功能,支持搜索目的地、影音娱乐等多种功能指令,并且可以远程操控车辆,如远程监测车况和汽车定位。再者,在智驾架构与模型上,SDA天枢架构统筹了"智驾、智舱、车身、动力、底盘"五大智能汽车领域的海量数据,支持数十亿级参数大模型的本地部署。而天枢大模型则分为感知系统、推理交互大脑、规划控制三大部分,并引入了具备世界知识的多模态大语言模型,能够接收并执行包括非智驾传感器信息在内的用户指令。最后,在安全与算力方面,长安汽车采用了大模型安全对齐引擎策略,通过云端强化学习对齐和车端规则优化确保智驾系统的安全可靠。同时,云端算力集群等效数千张A100的算力,结合端到端体系和每年新增的数百万辆车的海量训练数据,共同构成了长安自研智驾体系的基础。这些解决方案共同构成了长安汽车的自动驾驶技术体系,致力于为用户提供更安全、更智能的驾驶体验。

吉利汽车

吉利汽车的自动驾驶解决方案主要包括以下几个方面:首先,吉利汽车集团发布了SEA浩瀚智能进化体验架构,这是一个集硬件层、系统层和生态层于一体的立体化布局,旨在为全球用户提供最大带宽和最高效的智能电动汽车解决方案。在此基础上,吉利汽车计划在2021年实现结构道路上的高度自动驾驶,并在2022年亚运会核心区域提供智能出行服务,进一步在2022年实现结构道路上的完全自动驾驶,目标是在2025年之前将这一技术扩展到开放道路上。为实现这一目标,吉利汽车与Mobileye展开了深入合作,后者为其提供从认知、规划到执行的端到端解决方案,其中Mobileye的Supervision系统,由两颗先进的EyeQ5H系统集成芯片(SOC)驱动,并支持OTA更新功能。此外,吉利汽车的自动驾驶方案还融入了智能导航系统和智能语音助手,这些系统能够根据实时交通情况和驾驶者的偏好,提供最优的行车路线,并通过语音指令控制车辆功能。更值得一提的是,吉利汽车的智驾方案还包括AVP代客泊车和城市NOA技术,这些创新技术能够在复杂的城市环境中实现自动导航辅助和泊车功能。这些解决方案共同构成了吉利汽车在自动驾驶领域的全面布局,旨在通过持续的技术创新,提升驾驶的安全性和便利性,同时牢牢把握未来自动驾驶技术所带来的时代机遇。

长城汽车

长城汽车的自动驾驶解决方案主要包括以下几个核心组成部分:首先,其基础智能驾驶方案最初是基于采埃孚和安波福提供的基础辅助驾驶方案,并随后融入了自研技术。这一基础方案起始时配备了一颗摄像头,并逐渐从一颗毫米波雷达升级到四颗,同时采用Mobileye的处理方案来融合雷达信号处理。在L2+到L2++的进阶过程中,长城汽车引入了TDA4芯片,实现了集成式设计方案,主要变化体现在毫米波雷达和视觉摄像头的更广泛运用上,采用了毫末智行/诺博提供的行泊一体解决方案,以平衡成本与性能。此外,长城汽车还展示了由元戎启行提供的无高精地图全场景NOA方案,该方案搭载了激光雷达和Orin-X高算力域控平台,在智能化方面取得了显著进步,尤其是在处理复杂城市路况和无车道线的环境中表现尤为出色。更进一步,长城汽车采用了端到端自动驾驶技术,这种技术能够应对复杂的长尾场景,使智能驾驶系统更加接近人类驾驶员的聪明和自然。端到端技术的优势在于它能迅速重建世界模型,精确识别车道宽度和路肩位置,确保基本的行车路线准确无误。为了支撑这些先进技术的研发与应用,长城汽车进行了超过900万公里的实车测试和超过5000万公里的仿真测试,构建了新一代的AI数据智能体系,显著提升了数据闭环的自动化水平。

极氪

极氪汽车的自动驾驶解决方案主要包括以下几个核心组成部分:首先,浩瀚智驾2.0系统是其技术亮点之一,该系统采用端到端自动驾驶技术,将所有自动驾驶功能整合在一个神经网络中,不仅优化了信息处理流程,还大幅减少了数据丢失的可能性,从而显著提升了自动驾驶的精确性和可靠性。此外,城市NZP通勤模式是另一大特色,它允许用户设定固定的通勤路线,并通过车辆的自学习能力自动生成和记忆该路线,这一模式特别针对用户80%以上的出行场景进行了优化,并支持在全国多个城市使用。在旧款车型方面,极氪001搭载的是与Mobileye合作的Mobileye Supervision智能驾驶解决方案,该方案覆盖了高速公路/城市快速路、泊车以及城市公开道路的全场景智能驾驶。值得注意的是,虽然Mobileye的芯片如EyeQ5H算力为48 Tops相对较低,但极氪自研的浩瀚智驾2.0方案算力高达508 Tops,这使得极氪在处理复杂交通场景和实时决策方面更具优势。

2025已开启,这一年,自动驾驶将驶向何方呢?

那么一起来首届自动驾驶百人论坛现场聊一聊吧(快来扫码报名)!

首届自动驾驶百人论坛 由联合雅森国际新能源,于2025年2月21日在北京新国展二期 进行举办,面向中设协特邀嘉宾免费参与,同时欢迎赞助 。本场论坛将汇聚众多自动驾驶领域的领军企业与权威机构,旨在搭建一个高端交流平台,促进行业内各方的深入对话与合作。除了深入研讨城市NOA优化、L3/L4技术开发、端到端解决方案、自动驾驶高算力芯片、多模态感知、车路云一体化等关键议题,通过共同探讨自动驾驶技术的最新创新成果、实践应用案例以及未来发展趋势,论坛还旨在凝聚行业智慧,激发创新活力,为推动中国自动驾驶产业的快速发展注入强劲动力。欢迎各大车企自动驾驶相关部门、海内外tire1、自动驾驶领域领军企业与权威机构、政府及高校研究机构报名!

主论坛:自动驾驶百人论坛 2025年2月21日 14:00-18:00。目前论坛安排如下,期间会有圆桌畅聊:

**另一部分是自动驾驶平行研讨会,面向特定的车企、供应商。**从车企与Tier1商机合作需求出发,开年布局全年;车企对口板块负责人参与讲技术、聊产品、探讨合作可能性。主打精准需求研讨,扁平对接,拥有一对一、面对面商务洽谈空间,名额有限,先到先得。

平行论坛 (付费参与,目前赞助招募中) 2025年2月22日 9:00-20:00

部分车企已有域控、雷达、摄像头、泊车方案、自动驾驶泊车、智能座舱等明确需求对接,欢迎来现场洽谈对接!!

现场有谁1、车企(排名不分先后)理想汽车、小鹏汽车、赛力斯汽车、蔚来汽车、北汽新能源、东风汽车、中国一汽、长安汽车、长城汽车、某跨界车企、阿维塔科技、智已汽车、吉利汽车研究院

**持续邀约中...**​

2、高校及研究院(排名不分先后)

清华大学、北京大学、上海交通大学、复旦大学、浙江大学、香港大学、香港中文大学、香港科技大学、香港城市大学、北京交通大学、首都师范大学、清华大学产业研究院、中科院计算所、北京智源人工智能研究院、宁波东方理工大学等。​

3、海外政府及企业代表

海外大使馆携本国自动驾驶领域领先企业,带来国际自动驾驶前瞻资讯。​

确定独立举办活动:

以色列使馆、巴西使馆、泰国使馆、摩尔多瓦使馆、波兰使馆、墨西哥使馆、亚美尼亚使馆、摩洛哥使馆、匈牙利使馆、基里巴斯使馆、芬兰使馆​

带海外企业展团:

墨西哥使馆、亚美尼亚使馆、芬兰使馆、摩洛哥使馆

芬兰:Qt、Mapvision、Basemark、Afry、Visual Component、Tundra Proving Group、Etteplan

以色列:ADASKY、Mobileye、Foretellix、Innoviz Technologies、Opsys Tech、TriEye、Foresight Automotive、Hailo、Arbe、BGR Robotics Ltd、Carteav Technologies、Algolion、CENS、StoreDot

#VLM-RL

一个用于安全自动驾驶的统一视觉语言模型与强化学习框架

近年来,基于强化学习(Reinforcement Learning, RL)的驾驶策略学习方法在自动驾驶领域受到越来越多的关注,并在各种驾驶场景中取得了显著进展。然而,传统的RL方法依赖于手工设计的奖励函数,这不仅需要大量的人力投入,还往往缺乏通用性。为了解决这些局限性,我们提出了VLM-RL,一个将预训练的视觉-语言模型(Vision-Language Models, VLMs)与RL相结合的统一框架,用于通过图像观测和自然语言目标生成奖励信号。VLM-RL的核心是将对比语言目标(Contrasting Language Goal, CLG)作为奖励,利用正面和负面的语言目标生成语义奖励信号。此外,我们引入了一种层次化的奖励合成方法,将基于CLG的语义奖励与车辆状态信息相结合,从而提升奖励的稳定性并提供更全面的奖励信号。同时,采用批量处理技术优化了训练过程中的计算效率。我们在在CARLA模拟器中进行了大量实验,结果表明,VLM-RL优于最新的基线方法,使碰撞率降低10.5%、路线完成率提高104.6%,并且在未见过的驾驶场景中表现出强大的泛化能力。此外,VLM-RL能够无缝集成几乎所有标准的RL算法,有望革新依赖于手工奖励设计的传统RL范式,并实现持续的性能提升。演示视频和代码可通过以下链接访问:https://zilin-huang.github.io/VLM-RL-website/

介绍

观察人类学习新技能的过程,我们发现,人类通常通过对比示例更有效地学习(图1)。例如,在教授某人如何煎牛排时,导师通常会强调正确和错误的技巧:"完美煎制的牛排应具有金黄酥脆的外壳和均匀粉红的内部",与"如果牛排完全变成深棕色并伴有烧焦的气味,则表示煎过火了"。这种方式帮助学习者通过识别期望和不期望的结果,全面理解正确的烹饪技巧。

图 1:奖励设计范式的概念对比。(a) 机器人操作任务通常具有明确的目标(例如,"将胡萝卜放入碗中"),使得 VLM 可以提供清晰的语义奖励。(b) 现有方法仅使用负面目标(例如,"两辆车发生了碰撞"),专注于规避但缺乏正面引导。(c) 我们的 CLG-as-Reward 范式整合了正面和负面目标,使 VLM-RL 能够提供更具信息性的语义引导,实现更安全、更具泛化能力的驾驶。

受到人类学习过程的启发,我们提出了一个整合预训练视觉语言模型与在线强化学习的统一框架,称为 VLM-RL,如图2所示。VLM-RL 从根本上重新思考了基础模型如何融入基于 RL 的自动驾驶系统中。我们首先引入了对比语言目标的概念,用于指导基于 RL 的安全驾驶任务。在此基础上,我们提出了一种新的 CLG-as-Reward范式,利用 CLG 生成更具信息性和上下文感知的奖励信号。

为了增强学习的稳定性,我们采用了一种层次化奖励合成方法,将基于 CLG 的奖励与车辆状态信息相结合。这些合成的奖励随后被集成到标准 RL 中进行策略训练。此外,我们还引入了批量处理技术,以提高训练过程中的计算效率。

据我们所知,VLM-RL 是自动驾驶领域中首个将视觉语言模型与强化学习相结合,用于在 CARLA 模拟器中进行端到端驾驶策略学习的研究工作

图2:自动驾驶奖励设计范式的比较概览。(a) 描述了基于 IL/RL 方法的驾驶策略学习的基本原理及其局限性。(b) 说明了基于基础模型的奖励设计方法(如 LLM-as-Reward 和 VLM-as-Reward 范式)在驾驶策略学习中的基本原理及其局限性。(c) 展示了我们提出的 VLM-RL 框架,通过利用 VLM 实现安全自动驾驶的全面且稳定的奖励设计。​

方法

如图3所示,VLM-RL 框架由四个主要组件组成。首先,我们定义了对比语言目标的概念,该目标描述了期望和不期望的驾驶行为,为奖励计算提供了基础。其次,我们利用 CLIP 来计算当前驾驶状态与这些对比语言描述之间的语义对齐程度,从而生成语义奖励信号。第三,我们开发了一种层次化的奖励合成方法,将语义奖励与车辆状态信息(例如速度、航向角)相结合,以生成稳定且全面的奖励信号。第四,为了优化计算效率,我们实现了一种批量处理技术,该技术通过定期处理来自回放缓冲区的观测数据,而不是实时计算奖励来提高训练效率。

图 3:用于自动驾驶的 VLM-RL 框架架构。(a) 用于策略学习的观察和动作空间;(b) 定义 CLG 提供语义引导;(c) 基于预训练 VLM 的 CLG 语义奖励计算;(d) 分层奖励综合,将语义奖励与车辆状态信息整合,生成全面且稳定的奖励信号;(e) 使用批处理的策略训练,其中通过回放缓冲区存储的经验执行 SAC 更新,并异步计算奖励以优化效率。

对比语言目标

给定一个任务 及其自然语言描述 ,这一基本方法利用视觉语言模型生成奖励信号,引导智能体朝着期望的行为方向行动。其形式化表达如下:

其中 是一个可选的上下文,可以包含额外的信息或约束。在此公式中,VLM 接收语言目标 、当前观测 和可选上下文 ,并输出奖励信号。

CLG 作为奖励范式

给定视觉编码器 和语言编码器 ,它们映射到相同的潜在空间 。对于一系列状态-动作转移 ,VLM 奖励定义为:

其中 是嵌入表示之间的距离度量。大多数研究使用 CLIP 作为预训练的 VLM,并采用余弦相似度作为距离度量。具体公式为:

其中, 表示嵌入之间的余弦相似度, 和 分别是视觉和语言编码器。在这种情况下,我们不需要上下文 。语言目标 通常表示期望的行为。计算过程如下:当前观测 通过视觉编码器 处理,生成共享潜在空间 中的状态嵌入;语言目标 通过语言编码器 编码,生成同一潜在空间中的目标嵌入;奖励由状态嵌入与目标嵌入之间的余弦相似度计算得出。

我们将 CLG 奖励函数定义为:

其中, 是加权因子,满足 。当 时,智能体更专注于实现正面目标,而当 时,智能体更强调避开负面结果。为了简化,在本工作中,我们设定 ,即两个目标具有相等的优先级。 表示嵌入之间的余弦相似度。

多层奖励合成

与传统方法相比,我们的目标是通过结合车辆状态信息来保留 VLM 的zero-shot能力,从而生成更稳定且全面的奖励信号。具体而言,我们提出了一种层次化的奖励合成方法,该方法包括两个阶段:(a)通过 VLM 生成归一化的语义奖励;(b)将这些语义奖励与车辆状态信息结合以生成综合奖励信号。

Phase I: 语义奖励归一化

首先,通过 CLIP 处理观测帧,计算语义奖励 。为了确保稳定性,我们将相似度分数归一化到范围 :

其中, 和 分别经验设定为 和 ,以避免极端值并确保一致的缩放。

Phase II: 融合车辆状态信息

我们结合车辆状态信息生成综合奖励信号。该步骤利用传感器数据确保奖励反映现实的驾驶行为和安全约束。

综合奖励函数 通过将归一化的语义奖励 与车辆状态信息结合来计算。具体如下:

其中, 用于调节速度对齐程度,其中 ; 评估车辆相对于车道中心的横向位置; 衡量车辆相对于道路方向的朝向; 确保车辆的横向位置相对于车道中心的一致性。

通过结合综合奖励函数,我们得到 VLM-RL 框架的最终奖励函数:

其中,稀疏任务奖励 确保智能体目标导向,而综合奖励 提供了基于高层语义理解和低层车辆动态的连续反馈。

基于批处理的策略训练

我们采用了 Soft Actor-Critic (SAC) 算法作为基础强化学习框架,原因是其在连续控制任务中具有出色的采样效率和稳定性。SAC 算法的目标是最大化期望总回报,同时通过熵正则化鼓励探索行为。其目标函数可以表示为:

其中, 为折扣因子, 是熵温度参数,用于控制回报与熵最大化之间的权衡,而 表示状态 下策略的熵。

为了更新策略参数 ,SAC 通过最小化以下目标函数实现:

其中, 是经验回放池, 是由参数 表示的 Q 函数。

Q 函数参数 的更新通过最小化Soft Bellman 残差实现:

这里, 是目标 Q 函数,其参数 会定期更新。

我们定义的替代奖励 替换到Soft Bellman 残差中,从而得到新的损失函数:

在训练过程中,策略网络通过学习预测未来的回报,而策略更新通过标准 SAC 策略梯度更新进行。

为了降低 CLIP 推理的计算开销,我们开发了一种批量处理技术。在每个预定义的间隔时间内,从回放池中抽取一批观测,批量通过 CLIP 编码器处理。CLG ( 和 ) 的 CLIP 嵌入仅在训练开始时计算一次,并在整个训练过程中保持不变。我们根据 合成奖励,用于更新存储的转移数据中的奖励。SAC 算法随后使用更新后的转移数据按照其标准的更新程序优化策略。

这种方法显著降低了 VLM 推理的计算开销,并使智能体能够异步优化,推动连续学习。​

实验和结果

评价指标

为了全面评估我们的自动驾驶系统在性能和安全性方面的表现,我们采用了多种定量指标来评估驾驶效率和安全特性。在驾驶效率评估方面,我们测量了车辆在整个测试过程中保持的平均速度(AS)、单次测试中成功完成的路线数(RC)以及车辆在每次测试中累计行驶的总距离(TD)。

安全性能通过多个互补指标进行评估。基础碰撞率(CR)用于衡量包含碰撞事件的测试比例。我们进一步通过两个频率指标分析碰撞模式:基于时间的碰撞频率(TCF),即每1000个时间步长发生的碰撞次数,以及基于距离的碰撞频率(DCF),即每行驶一公里发生的碰撞次数。为评估碰撞严重程度,我们记录了每次碰撞时的碰撞速度(CS)。此外,我们跟踪记录了碰撞间隔时间步长(ICT),即连续碰撞事件之间的平均时间步数,从而深入了解安全事故的时间分布。在测试阶段,我们还报告了成功率(SR),用于评估模型在10条预定义路线中成功到达目的地的能力。

训练效果比较

为了进一步验证 VLM-RL 的有效性,我们在 10 条预定义路线中进行了全面的测试评估,并将其性能与基线方法进行了比较。路线完成率表示每次评估中平均的路线完成率。表 2 的测试结果表明,与基线方法相比,我们的方法具有显著的优势。

在测试阶段,二元奖励方法的局限性依然明显。TIRL 变体的路线完成率仅为 0.01,总行驶距离分别为 4.7 米和 14.8 米,证实了它们无法学习有意义的驾驶行为。在具有加权求和项的专家设计奖励方法中,Chen-SAC 保持了最高的平均速度 21.4 km/h,但其成功率仅为 0.08,路线完成率为 0.29,表明其激进的驾驶风格降低了任务成功率。ChatScene 变体表现出更均衡的性能,成功率分别为 0.73 和 0.63,但其碰撞速度分别为 1.18 km/h 和 0.89 km/h,显示出潜在的安全隐患。

基于 LLM 的方法在测试中具有竞争力,Revolve 的成功率达到 0.83,路线完成率为 0.92。然而,其碰撞速度为 1.53 km/h 和 1.65 km/h,表明仍存在安全问题。大多数基于 VLM 的方法,包括 VLM-SR、RoboCLIP、VLM-RM 和 LORD,表现出极为保守的行为,其路线完成率均低于 0.07,成功率为 0.0。LORD-Speed 的效率指标显著提高,但记录了所有方法中最高的碰撞速度 2.80 km/h。

相比之下,VLM-RL 在测试期间所有关键指标上都表现出卓越的性能。它保持了 19.3 km/h 的高平均速度,同时记录了 0.02 km/h 的低碰撞速度,与最保守的方法安全性相当。最值得注意的是,VLM-RL 实现了最高的成功率 0.93 和路线完成率 0.97,以及最长的总行驶距离 2028.2 米。这些结果表明,我们的方法不仅能够学习更有效的驾驶策略,还表现出更好的测试场景泛化能力。在效率和安全性指标上取得的显著改进验证了基于 CLG 和分层奖励设计的方法在提供全面且平衡的学习信号以实现安全驾驶任务中的有效性。

可视化

为了更好地理解基于 CLIP 的语义奖励的效果和局限性,我们可视化了三个具有代表性的失败案例,并分析了正目标、负目标和 CLG 如何捕获不同的驾驶行为。如图 14 所示,我们展示了图像序列及其对应的语义相似度分数在三种挑战性场景中的变化。

在图1 4(a) 展示的追尾碰撞场景中,我们观察到,当自车逐渐接近前车时,正目标的相似度分数逐渐下降,而负目标的相似度分数逐渐上升。这种模式与我们的设计意图一致:不安全行为应导致较低的正目标相似度和较高的负目标相似度。最终的对比得分显示出明显的下降趋势,正确反映了追尾碰撞行为的不理想性质。

图 14(b) 展示的侧面碰撞案例揭示了另一个有趣的模式。在第 30 到第 45 步的碰撞期间,正目标的相似度并未显著下降,这表明 VLM 有时难以单独通过正目标捕捉安全违规行为。然而,负目标的相似度在碰撞期间表现出显著的峰值,导致对比得分出现适当的下降,从而正确惩罚了该不安全行为。

图14(c) 展示的偏离道路场景突出了纯基于 VLM 的语义奖励的局限性。随着车辆偏离道路,正目标相似度下降的同时,负目标相似度也呈现下降趋势。这导致对比得分相对平稳,未能充分惩罚偏离道路的行为。这一局限性源于我们的语言目标主要聚焦于与碰撞相关的行为,而未明确考虑道路边界违规。

这些观察结果揭示了基于 VLM 的语义奖励的潜力和局限性。尽管 CLG 能有效捕获许多不安全行为,但在某些场景下可能无法提供适当的学习信号,特别是那些未在语言目标中明确描述的场景。这突显了我们分层奖励合成方法的必要性,通过结合高层语义理解与低层车辆状态信息,提供更全面且可靠的奖励信号。

结论

本文提出了 VLM-RL,一个将预训练视觉-语言模型(VLMs)与强化学习(RL)相结合的统一框架,用于安全自动驾驶。本研究的主要贡献在于通过利用 VLMs 的语义理解能力,解决了奖励设计的挑战。具体而言,我们提出了对比语言目标(CLG)作为奖励的范式,利用正目标和负目标生成语义奖励。同时,我们引入了一种分层奖励合成方法,将基于 CLG 的奖励与车辆状态信息结合,提升了奖励的稳定性,并提供了更全面的学习信号。为缓解计算挑战,我们采用了一种批处理技术,实现了训练过程中的高效奖励计算。

在 CARLA 仿真器中进行的大量实验验证了 VLM-RL 的有效性。与最先进的基线方法相比,VLM-RL 在安全性、效率和对未见驾驶场景的泛化能力上实现了显著提升。特别是,VLM-RL 将碰撞率降低了 10.5%,路线完成率提高了 104.6%,并在多样化交通环境中展现出稳健的性能。这些结果验证了将 VLMs 与 RL 相结合的潜力,为开发更加可靠且具备上下文感知能力的自动驾驶策略提供了新途径。

#ViPOcc

利用视觉基础模型的视觉先验来实现单视图3D占用预测

摘要

本文介绍了ViPOcc:利用视觉基础模型的视觉先验来实现单视图3D占用预测。根据单张图像推断场景的3D结构在以视觉为中心的自动驾驶领域中是一个不适定且具有挑战性的问题。现有的方法通常采用神经辐射场来生成体素化的3D占用,其缺乏实例级语义推理和时间光度一致性。本文提出了ViPOcc,它利用了来自视觉基础模型(VFMs)的视觉先验来实现细粒度的3D占用预测。与先前仅采用体渲染进行RGB和深度图像重建的工作不同,本文引入了一种度量深度估计分支,其中提出了一个逆深度对齐模块来弥补VFM预测和真值之间深度分布的域差距。然后,将恢复的度量深度用于时间光度对齐和空间几何对齐,以确保准确且一致的3D占用预测。此外,本文还提出了一种语义引导的非重叠高斯混合采样器,用于高效、实例感知的射线采样,这解决了先前最先进方法中仍然存在的冗余和不平衡采样问题。大量实验表明,ViPOcc在KITTI-360和KITTI Raw数据集上的3D占用预测和深度估计任务中均展现出更优的性能。

主要贡献

本文的贡献总结如下:

1)本文提出了ViPOcc,这是一种单视图3D占用预测框架,它结合了来自VFMs的视觉先验,在单目深度估计和3D占用预测任务中均实现了SOTA性能;

2)本文引入了一种逆深度对齐模块,它有效地恢复了VFM深度预测的尺度,同时保留了它们的局部视觉细节信息;

3)本文提出了一种语义引导的非重叠高斯混合(SNOG)采样器,它引导框架更多地关注关键实例,并且在射线采样过程中避免重叠图像块;

4)本文建立了一种新的训练范式,它使用所提出的时间光度对齐和重建一致性损失来将3D占用预测和单目深度估计的无监督训练相结合。

论文图片和表格

总结

本文引入了ViPOcc,这是一种有效利用VFM视觉先验进行单视图3D占用预测的新框架。ViPOcc由两个耦合的分支组成:一个通过对齐来自Depth Anything V2的逆深度输出来估计高度精确的度量深度,而另一个通过结合Grounded-SAM引导的高斯混合采样器来预测3D占用,以实现高效且实例感知的射线采样。这两个分支通过时间光度对齐损失和空间几何一致性损失来有效地耦合。大量实验和综合分析验证了本文方法的有效性以及ViPOcc与先前SOTA方法相比的优越性能。未来的目标是实现这两个分支更紧密的耦合,并且开发一种更轻量级的3D占用预测框架。

#diffusion policy,是值得研究的方向吗

在人工智能领域,扩散模型(Diffusion Models,简称DMs)凭借其强大的生成能力,在图像、文本以及轨迹规划等任务中展现了巨大的潜力。然而,当扩散模型应用于决策规划领域时,其低效的迭代采样成为了一个主要瓶颈。许多现有方法,如 Diffuser 和 Decision Diffuser (DD),在生成高质量轨迹的同时,由于复杂的建模过程,其决策频率往往低于 1Hz。这种性能远不能满足机器人控制、游戏 AI 等实际场景对实时响应的要求。

为解决上述问题,DiffuserLite 应运而生。它通过引入一种创新性的 渐进式精细规划(Progressive Refinement Planning, PRP) 方法,在减少冗余信息建模的同时,实现了更高效的轨迹生成。令人印象深刻的是,DiffuserLite 的决策频率达到了 122Hz,比主流框架快 112 倍以上,并在多个基准任务中实现了 State-of-the-Art(SOTA) 性能。本文将深入讲解 DiffuserLite 的核心原理与技术亮点,剖析其在实际应用中的潜力,并探讨这一框架可能带来的广泛影响。

问题

在决策规划领域,DiffuserLite 所面临的任务可以描述为一个基于离线强化学习(Offline Reinforcement Learning)的优化问题,其核心目标是生成一条满足目标属性的轨迹。

系统的状态由离散时间动力学方程控制,公式如下:

= f(,)

其中:

表示系统在时间 t 的状态。

为在时间 t 的动作。

表示系统的动态模型。

轨迹 x 可以表示为状态序列或状态-动作对序列,其中T是规划的时间范围。

Diffusion Planning 的目标是找到一条最符合目标 的轨迹:

其中:

  • d 是一个度量轨迹属性与目标属性之间距离的函数。
  • C是一个评价器(Critic)。

在离线强化学习的背景下,轨迹的属性通常被定义为其累积奖励:

核心在于从离线数据中生成符合目标属性的轨迹,并从中提取执行动作

扩散模型

扩散模型被引入来解决轨迹生成问题。其通过对轨迹分布的建模,能够生成满足目标条件的长时序轨迹。与传统的逐步生成方法不同,扩散规划直接生成完整轨迹,避免了步进式方法中常见的累积误差。现有扩散规划方法的一个主要瓶颈在于高复杂度的采样过程,这需要多次前向传播和复杂的去噪处理,导致决策频率极低。

DiffuserLite

DiffuserLite 是一种高效轻量级的扩散规划框架,旨在解决现有扩散规划方法中因冗余信息建模而导致的低效率问题。它通过引入 渐进式精细规划(Progressive Refinement Planning, PRP) 方法,减少了不必要的计算。此外,DiffuserLite 使用 DiT(Transformer 变体) 替代传统的 UNet 模型。DiffuserLite 的规划过程分为以下几个阶段:

  • 初始粗略规划:在较大的时间间隔内多次生成关键状态点,忽略中间冗余细节。
  • 评价:使用评价器(Critic)选择最优轨迹。
  • 逐步精细化:在每一层细化关键状态点之间的轨迹(执行多次),利用评价器选择最有轨迹。
  • 快速执行:通过简化的模型架构和条件采样技术,快速生成动作决策。

渐进式精细

规划渐进式精细规划(PRP) 是 DiffuserLite 的核心创新之一,用于在生成轨迹时逐步减少冗余建模,提升效率和准确性。PRP 的核心理念是将轨迹生成过程分解为多个逐层优化的阶段,从最初的粗略规划逐步细化,直到生成精确的完整轨迹。在扩散规划中,完整轨迹的生成通常涉及大量冗余信息,尤其是远端状态的细节对于当前决策的影响微乎其微。例如,在长时间跨度的轨迹规划中,远端的状态可能由于环境噪声或动态变化而无法准确到达,因此建模这些细节不仅无益,反而增加了计算负担。冗余信息导致模型需要处理更高维度、更复杂的概率分布,这显著降低了推理速度。PRP

  • 粗略规划:初始阶段仅生成关键点(Key Points),间隔较大的状态点被视为轨迹的主要参考,而中间状态被忽略。
  • 逐层精细化:从关键点轨迹出发,逐层填补两点之间的细节,逐步将轨迹分辨率提高到所需的精度。示例:
  • 优化终结:最后一层完成全轨迹的生成,生成的轨迹既包括整体的长远性,又有足够的局部细节。

例如:对于规划范围为 128 的轨迹,第一层只生成 [0,32,64,96,128] 这几个点。第二层生成[0, 8, 16, 24, 32],第三层生成[0,1,2,3,4,5,6,7,8]。相比于传统的one-shot方法,能够快速生成出理想的轨迹。

训练

将完整轨迹按层次划分为子轨迹,每层生成的轨迹采用扩散模型拟合其概率分布,优化目标为最小化噪声预测误差。为指导模型生成目标轨迹,DiffuserLite 使用了无分类器指导(CFG)。

Critic设计

Critic

  • 提供生成条件:在扩散模型训练过程中,Critic 评估轨迹的属性 C(x),并作为条件输入指导模型生成目标轨迹。
  • 选择最优轨迹:在推理阶段,Critic 用于从候选轨迹中选择最优轨迹。

在稀疏奖励任务中,直接使用累积奖励可能不够有效,因此可以加入最终状态的值函数 :

在特定任务(如机器人控制或行为定制)中,可以将其设计为目标任务的特定指标,例如轨迹平滑性、目标对齐度、或者状态变化的能量消耗。

实验

1.实验目的

实验的主要目的是验证 DiffuserLite 在多种任务中的性能,包括:

  • 效率:决策频率是否显著提升。
  • 准确性:生成轨迹是否符合任务目标。
  • 任务适应性:是否能够处理长时序、稀疏奖励等复杂任务。
  1. 实验设置

数据集与环境

DiffuserLite 在以下标准基准任务中进行评估:

  • Gym-MuJoCo:机器人运动控制任务。
  • 任务包括 HalfCheetah、Walker2D 等,主要关注连续控制性能。
  • FrankaKitchen:复杂任务完成环境。
  • 包含多个子任务组合,如打开微波炉、关门等,考验轨迹规划能力。
  • Antmaze:长时序导航任务。
  • 需要在稀疏奖励场景中生成可行的轨迹,特别测试远端轨迹规划能力。

评估指标

  • 决策频率(Hz):每秒生成的决策次数。
  • 任务成功率:轨迹是否成功达到目标状态。
  • 奖励累计值:生成轨迹的累计奖励。
  1. 实验结果

性能比较

DiffuserLite 与主流方法(如 Diffuser、Decision Diffuser)进行了全面对比。结果如下:

  • 决策频率:
  • DiffuserLite 的频率达到了 122 Hz,显著高于 Diffuser(约 1 Hz)和 Decision Diffuser(约 0.8 Hz)。
  • 任务成功率:
  • 在 FrankaKitchen 任务中,DiffuserLite 的成功率达到了 85%,比基准方法高出约 10%。
  • 累积奖励:
  • 在 Gym-MuJoCo 任务中,DiffuserLite 的累计奖励接近理论最优值,展现了优异的控制性能。

消融实验

为了验证各组件的贡献,进行了以下消融实验:

  1. 无 PRP(渐进式精细规划):
  • 不使用 PRP,直接生成完整轨迹。结果显示效率和准确性显著下降。

替换模型架构:

  • 用传统的 UNet 替换 DiT(Diffusion Transformer),推理速度降低约 30%。

移除 Critic 指导:

  • 不使用 Critic 提供的轨迹属性条件,任务成功率降低了 15%。

总结

DiffuserLite 在扩散规划领域实现了一项重要突破,通过引入 渐进式精细规划(PRP) 和灵活的 Critic 和属性设计,显著提升了轨迹生成的效率和适应性。实验结果表明:

  1. 高效性:DiffuserLite 的决策频率达到了 122Hz,是现有方法的百倍以上,能够满足实时任务需求。
  2. 准确性:在 Gym-MuJoCo、FrankaKitchen、Antmaze 等复杂任务中,DiffuserLite 均展现了优异的任务成功率和轨迹规划能力。
  3. 适应性:通过 PRP 和 Critic 的结合,DiffuserLite 能够有效处理长时序和稀疏奖励任务,展现了极强的任务扩展性。

整体来看,DiffuserLite 解决了扩散规划的实时性问题。

#上海微软大裁员

赔偿达N+8??老员拿20个月工资走人...

我之前写文章,有读者给我留言说,国内最遵守劳动法的一定是外企,听起来挺扎心但确实是事实。

外企就连裁员也是超规格的。

这不,微软又开始恶意裁员了,直接给员工 N+8 赔偿,工作12年的老员工,直接拿 20 个月的工资走人。

大家知道,一般研发的工作还蛮高,也就说有人可以拿几十万甚至上百万的赔偿金。

确实有点香,哪怕被离职了,拿了这么多钱心里也多少踏实一点点。

一般来讲,按照法律规定,裁员会给到N、N+1或2N的赔偿。

所谓"N",就是员工在单位工作的年数。如果员工在单位工作3年,那么被裁员时,其可能拿到相当于3个月、4个月或6个月工资的补偿金。

在现实生活中,很多人是拿不到赔偿的,因为用人单位那头会千方百计逃避赔偿,员工能拿到N或者N+1赔偿已经算不错了。

裁员的原因呢,一方面是大环境的变化,另一方面是因为 AI。而受AI影响,从去年到现在,硅谷裁员超40万。

去年年底,谷歌被曝出用AI取代3万销售的工作;4月特斯拉宣布全球裁员超1.4万人;8月英特尔宣布全球裁员1.5万人,相当于总员工的15%。

紧接着戴尔被爆两年裁了2.55万人,通讯大厂思科、诺基亚传出裁员2000人、8000人;游戏大厂的原画师正在被 AI 取代;电商详情页头部电商80%已经用AI来做图......

"AI时代"正式到来,"人工智能"更是被首次纳入企业裁员理由,而或许AI引爆的裁员浪潮才刚刚开始。

6月14日,咨询机构麦肯锡发布了的一份题为《生成式人工智能的经济潜力》的研究报告,分析师们通过对47个国家及地区的850种职业(全球80%以上劳动人口)的研究,探讨了在AI成指数级发展背后,对全球经济将带来的影响,哪些行业冲击最大,哪些人面临失业威胁?

这个研究报告,在业内算是比较权威和全面的报告了,总结了报告的几个关键结论:

1、AI取代人类工作的时间被大幅提前了10年,在2030年至2060年间(中点为2045 年)50%的职业逐步被AI取代。

2、AI每年可为全球经济带来2.6万亿至4.4万亿美元的增长,生产力提高0.1%---0.6%,相当于每年贡献一个英国的GDP。

3、全局上看AI对各行各业的发展有利,但是对个人不利,而高薪、高学历的脑力劳动者受到的冲击最大。

4、生成式AI带来的价值增长,主要(约75%)集中在四个领域:客户运营、营销和销售、软件工程和研发。

5、生成式人AI及其他科技的发展或将使当前工作的60%到70%实现自动化。其中,银行业、高科技行业和生命科学等行业所受的影响最大。​

报告认为,高薪、高学历的知识工作者受AI冲击最大,AI取代人类工作的时间被大幅提前了10年!

报告还提到了一个观点,AI 对底薪工作者的替代会慢很多,比如采摘苹果的工人,送外卖的快递小哥等等。

反而,AI 的出现可能对高薪知识工作者的工作影响最大

这个有点能理解,因为越是高薪的相关工作,越是涉及到自动化、复杂决策、信息化的工作,算是 AI 的擅长点。

报告原文:https://wallstreetcn.com/articles/3691210

怎么说呢?

看完还是蛮震撼的,因为我们一直在 AI 这个赛道中探索创业,所以也一直很关注这方面的研究和发展。

但是这份报告给出的数据,还是超出了我的想象,AI 对世界的影响越来越加速了。

对于普通人呢?

打不过就加入,可能现在 AI 还没影响到你的工作,但是未来 AI 一定会对你有所影响。

早一点接触,早一点了解,肯定是最好的。

这个有点能理解,因为越是高薪的相关工作,越是涉及到自动化、复杂决策、信息化的工作,算是 AI 的擅长点。

#UniPLV

解放人工标注!理想多模态框架:开放3D场景理解新SOTA~

开放世界的3D场景理解旨在从点云等3D数据中识别和区分开放世界的对象和类别,而无需人工标注。这对于真实世界的应用,如自动驾驶和虚拟现实等至关重要。传统的依赖人工标注的闭集识别方法无法满足开放世界识别的挑战,尤其3D语义标注,非常耗费人力和物力。大量的互联网文本-视觉对数据,使得2D视觉语言模型展现出了杰出的2D开集世界理解能力。同样道理,为了理解3D开放世界,当前的SOTA方法通过构建点云-文本对数据,再通过CLIP的对比学习方式,达到3D开放世界理解能力。这种方式不仅要求繁琐的点云-文本对数据制作过程,而且要求大量的点云文本对齐数据。在实际互联网世界中,大量的3D点云数据难以获得且是有限的,因而限制了大量点云-文本对数据的制作,进而限制了方法的性能上限。

仔细观察可以发现,尽管3D点云数据有限,它们通常与图像成对出现。这就使得我们仔细思考:是否可以利用2D开放世界理解方法的成功,借助图像作为媒介,在有限的数据中,将2D开放世界理解的能力转移到3D开放世界理解当中。因此,我们设计了一个点云-图像-文本统一的多模态学习框架,在数据有限的情况下,将图像-文本的对齐关系迁移到点云-文本,得到3D开集场景理解模型。这个框架不需要生产点云-文本对,仅通过2D基础模型得到区域像素-文本对,即可通过多模态统一训练得到3D开集场景理解模型。同时,推理时不需要依赖图像即可得到点云的语义信息。在广泛使用的nuScenes、Waymo以及SeamanticKITTI数据集上进行的多个实验验证了多模态框架在3D开集任务上的有效性。

本文提出了一个多模态开集框架UniPLV,将点云、图像和文本统一到一个范式中,以实现开放世界的3D场景理解。UniPLV利用图像模态作为桥梁,将3D点云与预对齐的图像和文本共同嵌入到一个共享的特征空间中,不需要制作对齐的点云和文本数据。为了实现多模态对齐,我们提出了两个关键策略:(i) 图像和点云分支的逻辑和特征蒸馏模块;(ii) 一个视觉点云匹配模块,用于显式纠正由点云到像素投影引起的错位。此外,为进一步提升我们统一框架的性能,我们采用了四种特定任务的损失函数和一个两阶段的训练策略。大量实验表明,我们的方法在两个开集任务Base-Annotated和Annotation-Free上的指标平均分别超过最先进方法15.6%和14.8%。​

相关工作回顾

3D语义分割。3D语义分割技术可根据对点云的建模方式分为三类:view-based、point-based和voxel-based。view-based将3D点云转换为距离视图或鸟瞰视图,提取2D特征,但会损失3D几何特性。point-based直接使用3维点作为模型输入,并设计算法聚合上下文信息。Voxel-based将点云空间划分为多个体素网格,并使用稀疏卷积技术处理这些体素特征以提高效率。本文采用MinkUNet、SparseUnet32和PTv3作为骨干网络,分别验证提出框架的可扩展性和泛化能力。

开放词汇2D场景理解。开放词汇的2D场景理解技术随着大型视觉语言模型的发展,在理解二维开放世界场景的能力上取得了显著进展。主要有两大方向:基于CLIP的方法和Grounding方法。基于CLIP的方法通常使用CLIP文本特征代替线性投影特征,并利用对比学习进行特征对齐,如GLEE、DetCLIP系列、RegionCLIP和OWL-ViT等。Grounding任务的输入是一张图片和对应的描述,通过不同的描述在图像中输出物体框的位置。鉴于2D开放世界理解的成功,我们选择GLEE和Grounding DINO作为我们的2D开集区域标签生成算法。

开放词汇3D场景理解。开放词汇的3D场景理解旨在识别未被标注的物体。早期的方法主要通过特征区分或生成的方法实现开放场景的理解。随着视觉语言模型(如CLIP)的成功,出现了许多工作将视觉语言知识迁移到3D场景理解上。Clip2Scene使用冻结的CLIP获取图像的语义标签,然后投影以指导点云的语义分割。OpenMask3D采用3D实例分割网络创建3D掩码,并投影以获得2D掩码。这些2D掩码输入到CLIP中,以提取视觉特征并与文本特征匹配,最终获得3D语义。由于CLIP是基于完整图像和文本的对齐进行训练的,其理解特定区域的能力有限。OpenScene通过将预测结果从冻结的2D视觉模型投影并在图像与点云特征之间进行蒸馏,实现了点云与文本对齐。然而,OpenScene需要资源密集的特征提取与融合,并且在训练期间图像骨干是固定的,难以扩展到更先进的3D网络和3D场景。RegionPLC和PLA通过构建大量的点云文本对来训练点云与文本的对齐,实现了开放场景的3D理解。本文提出了一个统一的多模态框架,用于开放场景3D理解,具有轻量级和可扩展的特点,并且不需要生成额外的点云文本对。​

UniPLV 方法详解

UniPLV能够识别无人工标注的新类别,同时保持对已标注的基础类别的性能。与之前通过构建3D点-文本对来实现开放词汇理解的方法不同,我们的工作利用2D基础模型构建图像区域语义标签,将开集能力从二维迁移到三维,而无需额外的3D和文本配对数据。利用二维和三维空间之间的映射关系以及预先对齐的图像和文本,我们设计了一个多模态统一训练框架,使用图像作为桥梁,将点云特征嵌入到图像和文本的共享特征空间中。我们介绍了所提框架的主要组件、数据流转换、两个知识蒸馏模块以及一个视觉点匹配模块。我们引入了一种多模态和多任务的训练策略,以确保点云和图像分支的稳定和高效训练。在推理阶段,此框架仅需要点云和类别描述作为输入来计算特征相似性,选择最相似的类别作为每个点的语义预测。

区域文本生成

我们利用二维视觉-语言基础模型提取图像实例和像素语义。具体来说,给定一组图像和类别文本列表,为每张图像输出边界框、实例掩码和语义类别。我们使用GLEE进行实例掩码和边界框生成,该模型已在大规模数据集上训练,在准确性和泛化性方面表现出色。另外,我们结合了 Grounding DINO 和 SAM2 ,以生成另一组实例标签。边界框通过 Grounding DINO 生成,随后使用 SAM2 对每个框进一步分割以产生实例掩码。至此,我们获得了区域-像素-文本对,以及与图像时空对齐的点云,用于训练提出的多模态3D场景理解网络。本文的实验结果中,2D 语义标签来自 GLEE,相关的 Grounding DINO 和 SAM2 实验可以在补充材料中找到。

模型框架

所提出的UniPLV包括一个冻结的文本编码器、图像编码-解码器和点云分割网络,如图2所示。我们将所有类别名称作为文本prompt输入到文本编码器中,在序列维度上应用全局平均池化来获取文本特征。为了支持开放世界理解,我们用感知特征与文本特征之间的相似性测量替换了图像解码器和3D分割头的分类器:

UniPLV可以利用构建的区域图像-文本对微调图像的分割和检测,并提供对应于给定类别的点云分割结果。该框架的最终优化目标是通过多模态联合训练将点云特征和图像-文本特征嵌入到统一的特征空间中,实现点云和文本在开放世界3D场景理解中的对齐。对于图像和文本分支,我们加载GLEE的第二阶段模型作为预训练权重,以加强文本和图像的对齐。在训练过程中,我们使用二维基础模型构建的数据微调图像模型,在迭代训练过程中,模型进行特征聚类,以识别并学习给定类别的共同属性。这种机制有助于滤除由误检引入的噪声,从而有效清洗伪标签。

视觉-点云知识蒸馏

为了将图像作为桥梁,将点云特征和预对齐的图像-文本对共同嵌入到统一的特征空间,我们从图像分支到点云分支引入了两个蒸馏模块:逻辑蒸馏和特征蒸馏。

逻辑蒸馏。 图像像素的语义分类概率是通过图像特征与所有给定类别的文本特征之间的相似性测量获得的。类似地,点云的语义分类概率也通过计算与文本的相似性获得。我们设计了逻辑蒸馏来监督新类别的点云分类,新类别语义由图像分支预测并经过投影得到,使用了交叉熵损失和Dice损失来实现逻辑蒸馏:

特征蒸馏。 图像和文本之间的对齐已经使用大规模数据进行预训练。为了弥合点云与语义文本之间的特征差距,我们进一步使用图像特征蒸馏点云的特征。我们仅蒸馏在空间映射和语义上同时对齐的2D-3D配对点。特征蒸馏基于相似性计算进行,使用余弦相似度函数在特定配对的点云和图像之间测量特征相似度:

视觉-点云匹配学习

我们引入了视觉-点云匹配(VPM)模块以进一步学习图像与点云之间的细粒度对齐。这是一个二分类任务,要求模型预测来自投影的像素点对是正匹配还是负匹配。VPM主要包括一个注意力编码器模块和一个二分类器。给定配对的图像特征和点云特征,图像特征为查询向量,而点云特征作为键和值向量。自注意力应用于图像特征以获得图像注意力特征。随后的交叉注意力在图像和点云特征之间进行,交叉特征经过前馈网络输出到一个二分类器获得匹配概率:

优化目标&多模态训练

为了实现3D开放世界场景理解,我们联合训练图像像素、3D点云与文本之间的对齐。我们提出的UniPLV有四个特定任务的损失:图像-文本对齐、点云-文本对齐、像素-点云匹配,以及逻辑和特征蒸馏损失。最终的总损失通过加权结合上述四种损失进行如下计算:

为了达到多模态稳定的训练,我们提出了一种两阶段多任务训练策略,用于训练多模态框架UniPLV。

阶段1:独立图像分支训练。 训练初步阶段,我们独立训练图像分支持续总迭代步数的一半,保证两个模态的网络梯度同步,并且在图像分支训练期间实施梯度剪裁,以防止梯度爆炸,保证训练稳定。

阶段2:统一多模态训练。 第二阶段涉及图像和点云分支的联合训练,采用不同的损失权重以有效平衡它们的损失值。在整个训练过程中,我们使用AdamW优化器,因其自适应学习能力和收敛稳定而被选择。优化器参数,特别是学习率和权重衰减,取决于每个分支的主干结构,并且针对图像和点云分支设置有所不同。这种策略上的优化设置差异确保了两个分支根据其特定的网络结构和数据特性进行训练,最终使得多模态训练任务达到更优的性能。

推理

推理过程如图2所示。在推理过程中,我们可以将任意开放词汇类别编码为文本查询,并计算它们与3D点云的相似性。具体来说,我们将每个点与计算出的余弦相似度最高的类别关联。由于我们已经将图像-文本对齐蒸馏到点云-文本对齐,因此在推理过程中不需要处理图像。​

实验结果

结论&未来工作

结论。本文提出了一种用于开放世界3D场景理解的统一多模态学习框架,UniPLV,该框架不需要制作点云文本对,利用图像作为桥梁,提出了逻辑蒸馏、特征蒸馏和视觉-点云匹配模块。此外,我们引入了四个特定任务的损失函数和两阶段训练过程,以实现稳定的多模态学习。我们的方法在nuScenes数据集上显著超越了最先进的方法。此外,在不同3D骨干网络以及Waymo和Semantickitti数据集上的实验结果也显示了我们方法的可扩展性和轻量级特征。

未来工作。未来有一些工作需要改进和解决。我们提出的框架目前仅在室外数据集上进行了验证。未来,我们计划将验证扩展到室内数据集,如ScanNet,其中2D和3D之间的投影参数更为准确。我们将来会改进和量化图像分支,使提出的框架能够同时实现2D和3D开放世界场景理解任务。点云分支也可以替换为OCC占用预测网络,以扩展开放世界的应用。

#Sparse4D

了解稀疏的BEV感知

许久没有更新了,自从开始工作以后愈发的困在了Corner Case和各种各样的琐事,闲言少叙,这篇文章将用尽可能简洁的语言,帮助各位大佬了解地平线的Sparse 4D系列工作。(PS:对于Sparse4D中,不同帧间的信息不再依赖各自帧内的ego2global部分就不做介绍了,大佬工作的代码写的很清晰,有这样一个概念即可~)​

Summary

  • 环视障碍物的检测,将不依赖显式的稠密BEV特征进行学习。
  • 基于K-Means的初始化Anchor, 让模型拥有更快的收敛速度,且Query的可解释性更好
  • 引入去噪过程,模型可更快收敛。
  • 考虑3D检测特点,引入质量估计
  • 以检测结果为基础,可出Tracking结果,不依赖BEV下的多目标追踪后处理

Methods

接下来,我们将分开两部分介绍模型结构部分;分开两部分的原因,是因为Denoising并不影响整体模型训练的pipeline,拆开两部分,可更好帮助各位大佬理解整体工作。

  1. 介绍模型整体的forward流程,包括Loss的设计
  2. 介绍Denoising的使用

Overall Pipeline

一言以蔽之:模型将基于query_based的instance_feature和anchor,进行整体的稀疏BEV感知;图像特征将不进行显式的深度信息编码,模型基于anchor的中心点,通过offset的学习,将图像特征引入至instance_feature。

接下来将基于开源的代码,进行尽可能简短的模型forward pipeline介绍。

  • instance_feature和anchor起始存储于instance_bank内。anchor(,11)的初始化,是基于GT的kmeans计算得到。对应的11维信息:[x,y,z,l,w,h,,,,,state]. 其中, 所有anchor的速度为0yaw角为0,最后一维信息可不关注,仅与denoise相关 。模型在训练过程中,anchor会伴随着模型的学习更新。但 在每一个iter的forward开始,instance_bank内取到的初始化当前帧instance_feature都是全0(即instance_feature永远依赖于当前图像特征的提取,和后续的注意力计算)。
  • 在通过Transformer进行forward过程中,operation主要包括:deformable, ffn, norm, refine, temp_interaction, interaction在内的六部分。其中,ffn, norm很好理解,重点介绍deformable, refine, temp_interaction, interaction四部分。
  • 单帧decoder: deformable+FFN+Norm+Refine
  • 多帧decoder: temp_interaction+interaction+norm+deformable+ffn+norm+Refine
  • 模型整体包括两类decoder:

其中,Deformable模块负责将图像特征引入;Refine模块负责基于instance_feature获取感知结果;temp_interaction负责对当前帧特征信息与历史特征信息进行融合; interaction负责将当前帧特征进行自注意力计算。

  • deformable(图像特征引入):前面提到,Sparse4D中,模型将不在学习稠密的显式BEV特征。图像特征的使用主要依赖该module。该模块的作用,是将图像特征基于anchor和采样点,对instance_feature进行更新(即引入图像特征)。
  • deformable依赖的输入包括instance_feature, anchor, anchor_embed, feature_maps与projection_mat. 最终输出的结果将用于更新instance_feature.
  1. instance_feature[B,,256]: 当前帧的instance feature, 模型在每一轮forward时,第一次进入deformable中的instance_feature结果都是全0,是通过若干次调用deformable module的过程中,图像特征的不断引入堆叠才得到最终的instance_feature.
  2. anchor:[B,,11]当前帧的anchor,即可能会存在于当前帧的框体的位置和对应大小的预设。
  3. anchor_embed:[B,,256]当前帧anchor对应的position_embedding。

图像特征引入模块的forward流程五步走:

  1. 获取key_points[B,,,3]:基于anchor_embed求解anchor中心点的对应位置偏移量,与anchor相加后得到key_points。此处的指代的是anchor中心点对应采样在图像中采样点的个数,论文中=8.
  2. 获取多尺度图像特征采样的权重weights[B,,,]:对已有的instance_feature分别引入框体的位置编码信息(anchor_embed)和相机参数的编码信息(基于ego2img的全连接层进行的编码信息). 并通过全连接层和softmax层,以及15%的随机掩码,得到weights。论文中=8,=8(的引入理解为multi-head attention就好)。
  3. 获取采样后的图像特征features[B,,,256]: 基于ego2img, 将key_points的点投影到图像特征中的归一化位置(在[0, 1]位置内)。通过grid_sample采样每个key_points在图像上的对应特征。对于采样点经ego2img投影后不在图像范围内的情况,对应features为0。
  1. refine(基于instance_feature和anchor,基于全连接层得到感知结果):
  2. 整体输入依赖instance_feature, anchor与anchor_embed,最终的输出结果包括:经过refine后的anchor[B,,11],对应anchor的类别分类[B,,],质量分析(quality)[B,,2] (值范围在[0,1]区间内)
  3. refine模块流程三步走:
  • 基于已有instance_feature和对应的anchor位置编码信息相加, 得到instance_feature
  • instance_feature通过全连接层得到anchor的偏移量,相加后更新anchor。
  • quality, cls全连接层得到对应的质量结果和分类结果。
  1. temp_interaction(基于当前帧特征和历史特征,进行交叉注意力学习):输入包括instance_feature(当前帧特征[B,,256]), temp_instance_feature(历史帧特征[B,,256]), 对应的位置编码信息anchor_embed&temp_anchor_embed。
  2. interatcion(基于当前帧特征,进行自注意力学习):输入包括instance_feature(当前帧特征[B,,256])。对应位置编码信息anchor_embed
  • 历史特征(temp_instance_feature),历史anchor(temp_anchor)及当前帧anchor、当前帧特征的获取 (get),是从instance_bank内获取,在Det_head每一轮forward的起始去做,获取的过程中,会基于历史特征和当前帧特征的时间间隔,进行mask判断;历史帧的anchor会基于ego2global信息进行基础的运动补偿,统一至当前帧下。
  • 基于历史特征,历史anchor和当前帧的anchor,当前帧的特征及对应confidence对当前帧特征和anchor的更新,是在模型经过单帧decoder forward后进行的,是通过concat当前帧的top与历史帧的得到。即instance_feature在基于采样点引入对应图像特征后,选取对应topk的当前帧特征,与历史帧特征融合,作为新的instance_feature&anchor,随后进行多帧decoder的forward。
  • 基于完整forward后 instance_feature, anchor及对应的confidence,对instance_bank内的特征进行更新。选择confidence最高的top作为新的历史特征(temp_instance_feature)和历史anchor(temp_anchor)。

Loss

Loss部分将仅针对Quality部分进行讲解

  1. cns_target: 预测与真值在x,y,z上面的l2距离误差:dist,最小值为0,最大值为无穷,所对应的,值域为(0, 1].即误差越大,对应值越接近0。
  2. yns_target: 预测与真值在sin(yaw)和cos(yaw)的余弦相似度,若相似度大于0,yns_target为1.0,反之为0。反映的是预测与真值在yaw角的预测上是否可保证是在同一方向上。
  3. 模型输出的cns和yns与对应target进行loss计算,其中cns用交叉熵损失计算,yns用高斯focal loss计算

个人理解,该部分的loss学习,本质上是强调模型对于目标障碍物的中心点 (特别是深度)和yaw角的预测,因为本质上对于图像进行3D检测的ill-posed问题,yaw角和深度的预测就是最关键,最难的问题。(个人也有一些瞎想,即现有的learning-based prediction&planning, 也在强调在一味的模仿学习基础上,要学习人类的判别逻辑/或提供奖励函数等等;此处的quality是否也可作此理解呢?)​

Denoising

一言以蔽之:Denoising中在loss计算部分,与正常anchor的loss计算一摸一样;Denoising的作用,在于绕过了匈牙利匹配,在去噪的过程中,直接优化检测头。李峰:[CVPR 2022 Oral]DN-DETR: 去噪训练加速DETR收敛 评论区大佬的这个解释让我茅塞顿开

其实detection任务可以类比成image domain到box domain的机器翻译问题。自然语言的翻译问题通常需要在两种语言上都有预训练才能work的比较好。ImageNet预训练的backbone使得我们有了很好的image domain预训练模型,但box domain我们是没有预训练模型的,只能利用image-box pair在训练过程中强行拟合。本文利用GT生成的noisy query更像是在box domain构造了一个自监督task,有效地缓解了box domain没有预训练模型的问题。类似思路在Pix2seq中也有体现。

  1. Denoising部分只在训练过程中引入,并不会影响模型的infer阶段
  2. 获取denoising的相关信息,

最终得到的输出包括:

  • Forward pipeline
  1. 设置了max denoising GT=24,如果当前batch_idx下的GT中周边障碍物数量大于该数量,则取前24个,否则取全量的GT。获取的GT信息包括分类信息和对应的框体信息(x,y,z,l,w,h,yaw,vx,vy)。
  2. 统计当前batch_size中最多的GT数量,上限为max denoising_GT的数量。
  3. 对cls_target和box_target中,batch_idx中不足最大GT数量的样本进行补齐。其中,cls_target补-1, box_target进行对应的全零补齐。
  1. 求解box_cost,对应得到每一个加入噪声后的dn_anchor, 其去噪后最接近的box_target。
  2. 基于box_cost得到的匈牙利匹配结果,构建dn_box_target和dn_cls_target。其中,positive的部分由于添加的噪声较小,对应的target就是GT的cls_target和box_target,而negative部分,对应的box_target为全0,cls_target为全部-3。

原有的anchor中包括的11维的输入,其中最后一维本身是没用的,可能是作为dn_anchor和anchor的区分位置

dn_anchor补齐最后一维的shape,最后一个remain_state_dim为0。并与anchor进行concat。此时的anchor_shape,为 [B,N]

构建attn_mask, 在计算自注意力机制时,对不同的query之间的attention进行mask。最终的目的,在于正常的query进行进行self_attention时,不会看到各个group的denoising query信息(防止GT信息泄漏)。同时各个denoising query在进行self_attention计算时,也不会看到正常的query和其他group的query信息(防止one-to-one的assignment,变成了n to one)。**此处的信息泄露,是指denoising_query中的信息,是在GT基础上加小幅度扰动得到的,把近乎百分之百准确的投影点投回到图像中拿的query肯定很准,用这样的信息给原有的query看到属于泄题,会完全影响模型学习。**​

Thinking

个人在初次读完Sparse4D的系列工作,第一感觉是好屌,而且代码的工程量开发好大。但后续再阅读了DAB-DETR,DN-DETR和DINO在内的三篇工作后,发现Sparse4D的系列工作更多是踩在巨人的肩膀上,进一步完善了环视障碍物的BEV检测任务。在这里也推荐作者本人在知乎进行的论文分享~李峰:DINO: 让目标检测拥抱Transformer 李峰:[CVPR 2022 Oral]DN-DETR: 去噪训练加速DETR收敛

有一些美中不足的地方和可能可以去改进的点,一方面在于,由于没有显式的深度信息学习,导致基于anchor的中心及对应offset往回投影学习图像特征时,无法考虑到目标车辆部分被前车遮挡的情况。能想到的一些解决思路,是通过GT提供分割结果,一定程度上约束图像特征投影点学的是统一的instance。​

碎碎念

由于自己的懒惰,导致大半年的时间长期没有进行认真系统的论文阅读。在读Sparse4D的工作时,需要结合开源的代码逐行阅读,一点一点厘清思路。但当最近系统化的再次阅读了DETR系列的相关工作,会发现Sparse4D更多的是站在了巨人的肩膀上,将BEV障碍物检测的性能再次拔高了一个台阶。

年底了,在这里也立个小flag,尽量保证至少两周一次的更新频率维护我的论文分享,也希望各位大佬不吝指正赐教。个人能力有限,很多分享难免会有纰漏,也欢迎各位大佬进行指正

#GPD-1

北大&清华GPD-1:专为智驾设计的生成式预训练

自动驾驶模拟器在开发和验证驾驶系统中扮演着至关重要的角色,对于测试复杂行为、理解交互动态和确保对潜在故障的鲁棒性起着非常重要的作用,这可以帮助实现更加安全和可靠的自动驾驶系统。然而,现有的自动驾驶场景演化方法通常是专项的,例如地图生成、运动预测或轨迹规划。考虑到这些方法通常只关注一个特定的任务,目前还没有一个统一的框架将这些方面整合到一个整体模型中进行整体模拟。作者提出了一个统一的生成预训练驾驶(GPD-1)模型来统一这些元素。他们将地图、智能体和自我车辆编码为一组统一的token标记,使其能够将场景演化表述为场景标记的生成预测。

作者采用了自回归transformer架构,并使用场景级注意力掩码,以实现场景内双向交互,允许模型有效地捕获自我、智能体和地图标记之间的依赖关系。对于自我和智能体标记,作者提出了一个分层位置标记器,有效地编码BEV位置和航向。位置标记器将连续的智能体位置转换为离散标记,显著减少了特征空间中的噪声。对于地图标记,作者利用向量量化自编码器(VQ-VAE)将自我中心的语义地图压缩成离散标记。通过将地图信息表示为离散标记,消除了预测连续地图坐标的复杂性,简化了学习过程并增强了泛化能力。

为了展示作者的GPD-1模型的有效性,作者进行了一系列的挑战性实验,跨越了多种任务。如图1所示,作者的模型无需任何微调,就能够执行场景生成、交通模拟、闭环模拟和运动规划。再通过进一步的微调,GPD-1可以在下游任务上实现最先进的性能,特别是在nuPlan基准的运动规划任务上。

相关工作

离散标记在自动驾驶中的应用

对于自动驾驶而言,将复杂的空间布局以高效和可解释的方式捕获变得越来越流行。VQ-VAE引入了一个码本机制,构建了一个在离散潜在空间中的编码器-解码器架构,使得高维数据的更丰富、更紧凑的表示成为可能。VQ-VAE-2通过层次量化代码和自回归先验进一步增强了这一框架。沿着这个方向,像VQ-GAN、DALL-E和VQDiffusion这样的模型将输入映射到与码本条目对应的离散标记,允许简化但富有表现力的表示。最近在许多视觉预训练中的工作采用了类似的标记策略,使用标记来表示图像块,并预测掩蔽标记作为智能体任务,以增强模型的鲁棒性和多功能性。为了表示地图元素,最近关于地图重建和端到端驾驶的方法将每个地图元素编码成向量表示以进行建模,这忽略了场景级结构。作者将标记应用到基于BEV的自动驾驶场景中,并将地图特征编码成离散标记。作者的方法通过最小化空间噪声并为地图和智能体信息提供统一的结构,解决了BEV建模中的常见问题,如计算效率低下和表示不一致。​

数据驱动的自动驾驶模拟技术

传统的模拟技术通常涉及重放记录的驾驶数据以模拟各种驾驶条件。例如,像nuPlan这样的传统模拟器严重依赖于广泛的驾驶日志来覆盖多样化的场景。然而,这些模拟需要大量的存储容量,使得它们资源密集且难以更广泛地获取。此外,这些基于模型的模拟器需要复杂的基于规则的模块来进行场景生成、智能体行为和渲染。为此,提出了数据驱动的模拟方法,用于传感器渲染、道路网络生成和智能体行为预测。例如,SLEDGE利用生成模型来模拟场景,使用紧凑的矢量化数据,实现了高效的存储使用,同时不影响场景多样性或复杂性。虽然有效,但它们缺乏在动态建模智能体与周围地图之间交互的适应性,限制了它们在反应性任务中的应用。不同地,作者的框架旨在通过整合一个能够进行场景演化的生成模型来弥补这一差距,从而允许交互式和灵活的场景生成,支持各种下游任务。​

方法论

2D地图场景标记器

自动驾驶的一个关键方面是准确和高效地捕获环境的空间信息。为了实现这一点,作者采用了2D地图场景标记器,将复杂的基于向量的地图表示转换为离散标记,这些标记可以在生成框架内有效建模。这个标记器旨在将连续的空间特征简化为结构化、离散的格式,使作者的模型能够将地图信息与智能体和自我标记无缝结合。

地图向量光栅化。地图数据由线条的向量表示组成,每个线条由多个点定义。直接编码这些向量存在挑战,因为向量格式内缺乏空间关系。为了解决这个问题,作者将地图向量光栅化到以自我车辆为中心的2D画布上,并且只表示立即可见的区域。这个光栅化的地图被表示为二进制图像,其中插值的线段和背景区域被标记为1和0。

特征提取和量化。为了高效表示地图数据,作者使用向量量化自编码器(VQ-VAE)将连续的地图特征转换为离散标记。光栅化的地图首先通过ResNet-50编码成紧凑的特征,其中,是下采样因子,是特征维度。对于量化,作者引入了一个码本,包含个离散代码,每个代码捕获场景的高级特征。每个地图特征在中通过映射到中最近的代码进行量化:

这里,表示L2范数。这里,表示量化函数,将连续的潜在向量映射到码本中的最近邻居,结果就是离散表示。这些标记提供了地图信息的紧凑和一致的表示,并在降低模型复杂性的同时编码空间结构。

使用离散查询重建。作者遵循DETR解码方法定义在SLEDGE中,将量化的地图标记解码成SLEDGE中概述的向量车道表示。为了对齐生成的和真实的地图线条,作者还采用匈牙利算法进行匹配,并使用与SLEDGE相同的监督损失设置,以确保准确的地图重建。地图标记器将基于向量的地图转换为紧凑的离散空间,编码关键的空间关系。这种表示促进了生成框架内动态场景元素的建模。​

智能体标记器

在自动驾驶模拟中,准确表示场景中的动态智能体对于现实和连贯的场景生成至关重要。为了高效编码智能体数据,作者引入了一个分层位置标记器来捕获空间(2D位置)和角度(航向)信息。这个标记器使模型能够在减少特征空间的同时表示复杂的智能体动态。

多级量化。每个智能体坐标,表示为一般变量(例如,,或航向),在个层次化的级别上进行多级量化,由一组阈值表示,其中每个表示特定的粒度规模。对于第一级,量化值计算为:

对于级别,量化是在考虑前一级之后的残差上执行的:

这种迭代量化确保每个级别都能逐渐捕获更精细的细节,专注于前一级未捕获的残差。结果是一组个量化值,每个值在不同精度级别上表示坐标。

位置嵌入。量化后,作者为每个量化级别并入一个固定的正弦位置嵌入,捕获其在特征空间中的相对位置。这种正弦编码基于Transformers中引入的经典位置编码,它提供了空间上下文并保持离散嵌入空间内的位置关系。每个量化级别的嵌入定义为:

其中是对应于量化值的嵌入。最后,所有量化级别的位置嵌入被连接形成每个坐标的最终位置编码向量:

其中表示连接。这导致了一个全面的、多层次的智能体坐标的表示,捕获了细微和粗略的空间细节。这种分层标记过程统一应用于、和航向值,为每个智能体提供了一种一致的方法来编码空间和角度信息。合并的嵌入然后通过MLP连接并映射到指定的模型维度。对于在可见区域之外的智能体,作者应用一组统一的可学习参数,允许模型自主学习未见智能体的表示。如图2所示的智能体标记器将智能体位置和航向转换为离散嵌入,实现了空间和角度关系的有结构表示。这种标记化减少了位置噪声,并在特征空间引入了一致性,提高了学习和预测智能体动态的能力。

场景建模的生成Transformer

在自动驾驶中,对整个场景的演化进行建模对于预测智能体之间的动态交互和理解未来结果至关重要。作者采用了自回归Transformer架构来处理场景建模,灵感来自GPT的顺序生成框架。作者的方法结合了场景级注意力掩码,允许每个帧内标记之间的双向交互,允许全面理解空间和时间关系,如图3所示。

每个场景,对应于单个帧,由固定数量的地图标记和智能体标记组成。地图标记来自2D地图场景标记器,作为通过VQ-VAE获得的离散潜在表示,它们的数量由潜在空间的维度决定。智能体标记由智能体标记器产生,代表场景中的各个智能体,每个帧分配固定数量。

空间和时间嵌入。为了向模型提供有关空间布局和时间进展的结构化信息,作者添加了可学习的空间和时间嵌入。空间嵌入将每个标记与其作为地图或智能体标记的角色相关联,确保模型理解场景中每个元素的不同功能。时间嵌入编码了帧之间的序列顺序,捕获了事件随时间的进展。这些嵌入允许模型保持一致的结构,其中每个帧由固定排列的地图和智能体标记组成,有助于理解跨帧的空间关系和时间依赖性。

场景级注意力掩码。注意力机制使用场景级注意力掩码,控制帧内和跨标记之间的交互。掩码的尺寸为,其中是最大时间步数,代表每个帧中的智能体和地图标记的总数。最初,掩码被设置为上三角矩阵,以防止标记关注未来的帧,强制执行自回归结构。此外,对于每个时间步,掩码被调整以允许同一帧内的标记之间的全面交互,定义为:

这种配置允许在同一时间步内地图和智能体标记之间的帧内空间交互,同时阻止来自未来帧的信息流。

自回归建模。按照GPT的架构,作者的transformer解码器以自回归方式处理每个场景,预测场景标记随时间的演变。在每个时间步,解码器接收空间和时间嵌入的场景标记,用场景级注意力掩码处理它们,并预测下一组标记。这可以被表述为:

其中表示从0到的标记集合,而是场景级注意力掩码。这学习了帧内标记之间的空间关系以及跨帧的时间依赖性,这对于生成现实和动态的驾驶场景至关重要。生成Transformer利用结构化的地图和智能体标记组合,通过空间和时间嵌入增强,来预测场景演化。场景级注意力掩码使得每个帧内细微的交互成为可能,增强了学习连贯的空间关系和时间进展的能力,使其非常适合自动驾驶场景。​

GPD-1:生成预训练驾驶

作者的生成预训练驾驶(GPD-1)模型使用两阶段训练过程来构建自动驾驶模拟和规划任务的坚实基础。作者首先训练地图VQ-VAE潜在标记器,采用L1误差用于地图线位置和二元交叉熵(BCE)来评估地图线可见性,如SLEDGE中定义。此外,为了提高码本的稳定性和精度,作者包括均方误差(MSE)损失,以鼓励准确的量化。这一阶段创建了一个高保真度的地图潜在空间,准确编码空间结构,为场景生成奠定了坚实的基础。

在第二阶段,训练好的地图标记器被冻结,并用于提取每帧的地图潜在表示,这些表示作为进一步训练的输入和真实情况。交叉熵(CE)损失用于匹配生成的标记与它们正确的码本条目,确保准确的地图重建。作者将自我和智能体标记同等对待,使用平滑L1损失来计算位置误差,以及BCE损失用于二元分类存在性。这种结构化训练使模型能够捕获空间和时间场景动态,实现跨多样化场景的一致场景建模。

场景生成:GPD-1通过初始化场景设置并预测智能体、自我车辆和地图特征的空间和时间演变来自动生成完整场景。这项任务对于从最小的初始输入创建多样化的驾驶场景至关重要。

交通模拟:通过用真实的地图和初始智能体状态初始化模型,GPD-1准确预测交通如何在帧间演化。这种模拟能力对于在动态环境中评估和训练自动驾驶模型至关重要,其中理解交通流动是基础。

闭环模拟:给定真实的地图和自我轨迹,模型可以动态适应智能体行为以响应自我车辆的移动。这种设置与nuPlan挑战赛的闭环交互设置紧密对齐,其中智能体对自我行为的反应是通过模型而不是传统的基于规则的算法生成的。

运动规划:GPD-1支持自我轨迹规划,根据给定的智能体和地图信息生成路线。这种规划能力与实际自动驾驶需求紧密对齐,提供了一种数据驱动的替代传统规划方法。

条件生成:GPD-1还可以处理条件生成,允许用户定义特定条件,如初始智能体轨迹、智能体数量或基于向量的地图特征。有了这些约束,GPD-1可以自动生成兼容的场景演变,实现针对特定场景的驾驶条件的模拟,以实现细粒度控制。

微调后的性能提升。在专门的数据集或特定任务场景上进行微调,可以进一步提升GPD-1在特定任务上的性能,特别是在复杂的规划任务中。微调使GPD-1能够生成延长、精确的轨迹,满足nuPlan规划挑战赛等挑战的严格标准,其中闭环和开环性能对于准确的轨迹预测至关重要。

生成预训练为GPD-1提供了灵活、稳健的结构,适应自动驾驶中的广泛任务。从场景生成到细致的条件模拟,GPD-1作为现实、响应性强的驾驶模拟和轨迹规划的全面解决方案,满足自动驾驶研究和开发的基本需求。​

实验及结论

作者在nuPlan数据集上进行了广泛的实验。nuPlan是一个大规模闭环规划基准测试。使用官方评估指标来评估作者GPD-1的规划性能,包括开环得分(OLS)、非反应性闭环得分(NR-CLS)和反应性闭环得分(R-CLS)。R-CLS和NR-CLS使用相同的计算方法。R-CLS在模拟期间包括使用智能驾驶模型(IDM)进行背景交通控制。闭环得分是一个从0到100的复合得分,它考虑了遵守交通规则、人类驾驶相似性、车辆动力学、目标达成以及其他特定于场景的指标。​

主要结果

为了展示GPD-1的通用性,作者在没有任何微调的情况下将其用于多个下游任务。如表1所示,作者展示了模型在各种设置下的性能。在这些实验中,作者提供了固定的2秒地图和智能体数据作为初始信息,并使用不同的提示设置。总体而言,自回归模型在迭代次数较少时表现最佳。例如,预测未来5秒只需要50次迭代,并能产生强大的结果。然而,随着迭代次数的增加,累积误差以大约二次方的速率增长。

结果与分析

nuPlan运动规划挑战赛。作者的模型的多功能表示使其能够无缝应用于各种下游任务,即使是最小的微调也可以大大提升其在特定任务上的性能。如表2所示,作者仅添加了一个解码器层来解码自我标记,以满足nuPlan挑战的要求。不依赖复杂的数据增强或后处理技术,作者的模型就实现了与PlanTF相当的性能,甚至在某些指标上超过了它。

地图预测。在地图预测实验中,作者在两种设置下评估了模型:1)提供智能体和自我车辆的真实地图来生成地图 2)仅提供自我的真实地图,并使所有其他智能体对模型不可见以生成地图。这个实验验证了条件生成能力。如表3所示,当仅提供自我作为输入时,地图预测质量显著提高。这是因为地图以当前自我车辆为中心,使其与自我的状态高度相关。

量化的影响。表4展示了量化智能体状态对自我车辆和智能体每帧性能的影响。作者可以看到,量化的离散智能体信息与离散地图共同降低了特征空间的学习复杂性。

可视化。图4显示了在复杂场景下场景生成设置下的性能。结果表明,即使在非常复杂的道路条件下,地图也能平滑生成。在两个转弯场景中,自我车辆和智能体都遵循自然轨迹,以相对稳定的速度行驶。同样,在两个直行驾驶场景中,模型有效地捕获了周围智能体的行为(例如,转弯、驾驶和减速),同时保持稳定的前进速度。

图5展示了在更复杂的交叉转弯场景下不同设置下的性能。地图生成的质量显著令人满意,对于智能体和自我车辆,除了明确使用真实数据的情况外,所有任务的性能都与真实情况非常匹配。这种一致性突出了作者模型的鲁棒性。

结论

在本文中,作者介绍了自动驾驶的生成预训练(GPD-1),它模型化了自我移动、周围智能体和场景元素的联合演化。作者采用了分层智能体标记器和向量量化地图标记器来捕获高级空间和时间信息,而自回归Transformer与场景级注意力预测多个驾驶任务中的未来场景。结果表明,GPD-1有效地推广到多样化的任务,如场景生成、交通模拟和运动规划,无需额外的微调。作者认为GPD-1代表了朝向完全集成的、可解释的自动驾驶框架的基础步骤。

#BeTopNet

南洋理工提出:交互自驾行为的拓扑建模与推理(Waymo&nuPlan)

自动驾驶系统旨在通过交互主体之间的行为整合实现安全和社会一致的驾驶。然而由于多智能体场景的不确定性和异构交互,挑战仍然存在。当前的密集和稀疏行为表示在多智能体建模中面临效率低下和不一致的问题,导致在集成预测和规划(IPP)时集体行为模式的不稳定。 为了解决这个问题,南洋理工大学提出了一个拓扑结构,作为一个顺从的行为前景来指导下游轨迹的生成。具体来说引入了行为拓扑(BeTop),这是一个关键的拓扑公式,明确地表示了多智能体未来之间的共识行为模式。BeTop基于编织理论,从多智能体未来轨迹中提取出兼容的交互式拓扑。**BeTop监督的协同学习框架(BeTopNet)有助于在预测的拓扑先验中实现行为预测和规划的一致性。**通过模仿偶然性学习,BeTop还有效地管理了预测和规划的行为不确定性。对大规模真实世界数据集(包括nuPlan和WOMD)的广泛验证表明,BeTop在预测和规划任务方面都取得了最先进的性能。对交互场景基准的进一步验证展示了交互案例中的规划合规性。

为此很荣幸邀请到南洋理工大学博士刘浩晨,为大家分享协同交互推理与轨迹生成的基础模型---BeTopNet,本次直播将围绕以下几个议题展开:

  • 自驾任务中交互建模的背景与现状;
  • 行为拓扑的交互建模与推理;
  • 协同模型的构建与预测规划任务验证。
#SafeDrive

大语言模型实现知识驱动和数据驱动的风险-敏感决策

24年12月来自USC、U Wisconsin、U Michigan、清华大学和香港大学的论文"SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models"。

自动驾驶汽车 (AV) 的最新进展利用大语言模型 (LLM) 在正常驾驶场景中表现良好。然而,确保动态、高风险环境中的安全并管理,对安全至关重要的长尾事件仍然是一项重大挑战。为了解决这些问题,SafeDrive,一个知识驱动和数据驱动的风险-敏感决策框架,提高 AV 的安全性和适应性。所提出的框架引入一个模块化系统,包括:(1) 一个风险模块,用于全面量化涉及驾驶员、车辆和道路相互作用的多因素耦合风险;(2) 一个记忆模块,用于存储和检索典型场景以提高适应性;(3) 一个由 LLM 驱动的推理模块,用于情境-觉察的安全决策;(4) 一个反思模块,用于通过迭代学习完善决策。

通过将知识驱动的洞察力与自适应学习机制相结合,该框架可确保在不确定条件下做出稳健的决策。对以动态和高风险场景为特征的真实交通数据集,包括高速公路(HighD)、交叉路口(InD)和环形交叉路口(RounD),进行广泛评估可验证该框架能够提高决策安全性(实现 100% 的安全率)、复制类似人类的驾驶行为(决策一致性超过 85%)并有效适应不可预测的场景。

风险量化 。风险量化对于 AV 的防撞至关重要。考虑车辆动力学的经典方法,例如碰撞时间 (TTC) [12]、车头时距 (THW) [13]、反应时间 (TTR) [14] 和车道交叉时间 (TLC) [15],由于其简单易行,广泛应用于交通场景中。然而,这些方法在动态、多维环境中往往不足,因为在这种环境中,风险因素变化迅速且相互作用复杂 [13]。为了解决这些限制,Mobileye 的 Shalev-Shwartz 提出责任敏感安全 (RSS) [16],这是一种旨在提供更具解释性的白盒子安全保障的模型。然而,仍然存在一些难题,例如确定大量参数。

为了克服这些限制,已经提出先进的方法。人工势场 (APF) 方法 [17] 使用势场来模拟车辆风险,从而实现基本的防撞。Gerdes [18] 通过结合车道标记来扩展 APF,以创建详细的风险地图。Wang [19]、[20] 将道路潜能场与车辆动力学和驾驶员行为相结合,提高风险模拟的准确性,并降低复杂场景中的碰撞风险。然而,这些方法往往侧重于当前交通状态,依赖于众多参数,并且在不确定的环境中缺乏适应性。Kolekar [21] 引入驾驶员风险场 (DRF),这是一个二维模型,它结合基于概率信念的驾驶员主观风险感知。通过整合主观风险评估,这些改进的 APF 和 DRF 方法更好地模拟交通系统动态并增强多维风险评估。然而,Kolekar [22] 提出的 DRF 仅考虑行驶方向(车辆前向半圆)的风险,无法提供全面的全方位风险量化。

决策中的 LLM。决策对于自动驾驶至关重要,因为它直接决定车辆能否安全有效地在复杂、动态和高冲突的交通场景中行驶 [23]。传统的数据驱动决策方法存在固有的局限性。这些算法通常被视为黑匣子,它们对数据偏差的敏感性、处理长尾场景的困难以及缺乏可解释性,这些都对为其决策提供人类可理解的解释提出重大挑战,尤其是在适应数据稀缺的长尾场景时 [24][25]。

LLM 的进步为解决自动驾驶中的决策挑战提供宝贵的见解。LLM 展示人类水平的感知、预测和规划能力 [26]。当 LLM 与矢量数据库作为内存结合使用时,它们在某些领域的分析能力得到显著增强 [27]。Li 提出知识驱动的自动驾驶概念,表明 LLM 可以通过常识知识和驾驶经验增强现实世界的决策能力 [28]。Weng 提出 DiLu 框架,该框架将推理和反思相结合,实现知识驱动、不断发展的决策,其表现优于强化学习方法 [29]。Jiang 以 DiLu 为基础,开发一个知识驱动的自动驾驶多智体框架,证明其在各种驾驶任务中的效率和准确性 [30]。Fang [31] 专注于在不同场景中使用 LLM 作为协作驾驶的智体。

最近的进展也凸显 LLM 在多模态推理方面的潜力。Hwang [32] 引入 EMMA,这是一种使用预训练 LLM 进行运动规划的端到端多模态模型,通过 nuScenes 和 WOMD 取得最佳效果。然而,它对图像输入的依赖和高计算成本带来挑战。Sinha [33] 提出一个两阶段框架,将快速异常分类器与后备推理相结合,用于实时异常检测和反应性规划,并在模拟中展示稳健性。这些研究强调 LLM 在 AV 决策中的潜力,其中实时推理和适应性至关重要。然而,大多数研究都集中在简单的场景上,缺乏在高冲突环境中的适应性。

SafeDrive 是一个基于 LLM 的知识和数据驱动的风险敏感决策框架,如图所示。SafeDrive 结合自然驾驶数据和高风险场景,使 AV 能够在复杂、动态的环境中做出自适应的安全决策。

该框架从大量数据输入开始(图 a),将所有道路使用者、所有条件场景和全覆盖数据组合成一个典型和高风险驾驶场景的综合数据库。在耦合风险量化模块(图 b)中,包括成本图和多维风险字段在内的高级风险建模动态量化风险,为决策提供详细的输入。LLM 决策模块(图 c)使用数据驱动的生成、风险先验知识和思维链 (CoT) 推理来生成实时的风险敏感决策。此外,自适应记忆更新,可确保可以回忆起类似的经验来改进决策过程。这些决策嵌入到风险-敏感驾驶智体(图 d)中,其提供准确的风险警告,回顾过去的经验并做出自适应决策。自我调整系统确保实时识别风险,并通过闭环反思机制持续更新驾驶策略。

总体而言,SafeDrive 增强实时响应能力、决策安全性和适应性,应对高风险、不可预测场景中的挑战。​

耦合风险量化

RQ1. 如何有效地对安全-紧要环境中的耦合风险进行建模和量化?

感知风险的概念由 Naatanen & Summala [34] 定义,是事件发生的主观概率与该事件后果的乘积。本文采用一种动态驾驶员风险场 (DRF) 模型,该模型可适应车辆速度和转向动态,该模型受到 Kolekar [21-22] 的启发。DRF 表示驾驶员对未来位置的主观信念,在靠近自车时分配更高的风险,并随着距离的增加而降低。事件后果通过根据场景中目标的危险程度为其分配实验确定的成本来量化,与主观评估无关。整体量化感知风险 (QPR) 计算为所有网格点的事件成本和 DRF 的总和。这种方法有效地捕捉驾驶员感知和行动中的不确定性,提供驾驶风险的全面衡量标准。

驾驶员风险场。这项工作扩展 DRF,使其能够考虑基于车速和转向角的动态变化。DRF 使用运动学汽车模型计算,其中预测路径取决于车辆的位置 (x/car, y/car)、航向 φ/car 和转向角 δ。假设转向角恒定,预测行驶弧的半径由以下公式给出:R/car = L / tan(δ), 其中 L 是汽车的轴距。利用车辆的位置和圆弧半径,可以找到转弯圆心 (x/c , y/c ),然后计算圆弧长度 s,表示沿路径的距离。

DRF 被建模为具有高斯横截面的环面。环境中的每个目标都分配有一个成本,从而创建一个成本图。该图通过元素乘法与 DRF 相结合,并在网格上求和以计算量化感知风险(QPR)。

该指标反映驾驶员对潜在事故发生可能性和严重程度的感知,将主观感知与客观风险量化相结合。

全方位风险量化。传统的驾驶员风险场 (DRF) 仅关注面向前方的半圆。为了实现自动驾驶的现实风险评估,本文模型将其扩展到 360 度视角,同时纳入前后车辆的风险。通过包括后车的 DRF 及其与自车的碰撞成本,从各个角度创建统一的风险状况,增强现场觉察和安全性。

该方法不仅计算总体风险,还评估每个参与者的具体风险属性。这样可以识别出那些构成更大危险的,从而更有针对性地识别和警告风险。​

风险-敏感的 LLM 决策

RQ2。如何引导基于 LLM 的智体获得安全且类似人类的驾驶行为?

基于之前介绍的自动驾驶系统风险量化和先前知识驱动范式,利用大模型的推理能力提出 SafeDrive,这是一个知识具大和数据驱动的框架,如图所示。本文中,GPT-4 充当决策智体,驱动推理过程并生成动作。用来自现实世界数据集的手动注释场景描述,并与下一帧动作配对作为真值标签,包括 HighD(高速公路)、InD(城市交叉路口)和 RounD(环形交叉路口)。这些描述提供环境背景,例如周围车辆的 ID、位置和速度,使 GPT-4 能够解释环境并支持推理和决策。

SafeDrive 架构包含四个核心模块:风险模块、推理模块、记忆模块和反思模块。该过程是迭代的:推理模块根据系统消息、场景描述、风险评估做出决策并存储类似的记忆;反思模块评估决策并提供自我反思过程;记忆模块存储正确的决策以供将来检索。使用三个真实世界数据集作为输入,这个自学习循环提高决策的准确性和处理多样化复杂场景的适应性。基于 LLM 的整体决策算法如算法 1 所示。

如图所示,在动态场景中,SafeDrive 接收用户导航指令和场景描述,实时评估周围车辆的风险属性(例如 QPR 值)、位置和速度。然后,系统利用 LLM 推理和历史记忆进行可行性检查、车道评估和决策,以确定最安全的操作,例如变道。总体而言,通过将多维风险量化与 GPT-4 的推理相结合,SafeDrive 可提供实时、风险敏感的决策。在高速公路和交叉路口等高风险场景中,它会识别不安全行为并做出自适应决策(例如减速或转弯)。闭环反射机制确保持续优化,增强响应能力、适应性和安全性。

风险模块。风险模块根据上述风险量化模型和定义的阈值为每个参与者生成详细的文本风险评估。这些阈值是通过实验确定的,考虑到风险分布和常见的安全标准,解决纵向和横向风险。这种整合确保在决策中更加谨慎,指导 GPT-4 驾驶智体有效避免或减轻不安全行为。

推理模块。推理模块通过三个关键组件促进系统决策过程。它从一条系统消息开始,该消息定义 GPT-4 驾驶智体的角色,概述预期的响应格式,并强调决策的安全原则。在收到由场景描述和风险评估组成的输入后,该模块与记忆模块交互以检索类似的成功过去样本及其正确的推理过程。最后,动作解码器将决策转换为针对自身车辆的具体动作,例如加速、减速、转弯、变道或保持空转。这种结构化方法可确保做出明智且有安全意识的决策。

记忆模块 。记忆模块是系统的核心组件,它通过利用过去的驾驶经验来增强决策能力。它使用 GPT 嵌入将矢量化场景存储在矢量数据库中。数据库使用一组手动创建的样例进行初始化,每个样例都包含场景描述、风险评估、模板推理过程和正确操作。遇到新场景时,系统通过使用相似度分数匹配矢量化描述来检索相关经验。在决策过程之后,新样本将添加到数据库中。这个动态框架支持持续学习,使系统能够适应不同的驾驶条件。

反思模块。反思模块评估并纠正驾驶智体做出的错误决定,启动思考过程,思考智体为什么选择错误的动作。修正后的决策及其推理会被储存在记忆模块中,作为参考,以防止将来再次出现类似的错误。该模块不仅允许系统不断演进,还为开发人员提供详细的日志信息,使他们能够分析和改进系统消息,以改进智体的决策逻辑。

#ROLO-SLAM

专为复杂地形下车辆的位姿漂移设计

解决垂直方向漂移

定位在自动驾驶背景下至关重要。它是安全高效导航的基础模块,使车辆能够准确地确定其在环境中的位置。对于不平整地形的导航,车辆在穿越崎岖地形时必然会出现波动。刚性安装在地面车辆上的传感器特别容易受到这些运动的影响,使得越野定位成为一个极具挑战性的任务。

SLAM技术能够同时对传感器的自身位姿进行定位并提供环境地图。这种方法为在未知且不平整的环境中的定位提供了有效的解决方案。

本文介绍的重点在于利用基于 LiDAR 的 SLAM 方法进行不平整地形导航。LiDAR 方法通常利用连续的激光扫描进行点云的局部与全局配准,从而估计传感器的精确自运动。这些方法在不平整的室外场景中表现出对环境条件的不敏感性、远距离感知能力以及低测量噪声的优势。

现成的基于 LiDAR 的 SLAM 通常包含两个模块:前端的 LiDAR 里程计后端的建图优化 。前端通过帧间配准提供初始位姿估计,而后端则通过全局对齐和优化方法精细调整位姿估计并重建周围环境。这种方法使框架能够实现从粗到细的定位,适用于诸如城市平坦道路等常规场景。然而,在不平整的地形中,应用于地面车辆的基于 LiDAR 的 SLAM 方法会出现不可忽略的定位漂移,从而导致失真或倾斜的地图。其主要原因在于垂直方向的位姿分量因车辆在地形表面运动而发生显著变化。这些变化直接导致帧间匹配时的共识集合减少,使得前端无法提供正确的初始位姿估计。尽管已有大量研究在此方面取得了显著改进,这一课题依然充满挑战并需要进一步优化的解决方案。

项目链接https://github.com/sdwyc/ROLO

针对这一问题,提出了ROLO-SLAM【1】(旋转优化激光雷达专用 SLAM):一种旨在减少垂直方向位姿漂移并精确估计地面车辆位姿的 LiDAR 专用 SLAM 框架。我们基于在崎岖地形下位姿估计漂移的观察,将前端划分为三个独立模块。在前端,开发了一种前向位置预测,用于粗略的平移估计,以实现旋转与平移的解耦。随后,通过体素化匹配和旋转配准来独立估计两次连续扫描之间的精确旋转。基于连续时间的平移估计方法进一步优化扫描的平移精度。最终,将该方法整合到一个高效的 SLAM 框架中,结合扫描到子地图的对齐和全局因子图作为后端。

主要贡献

  • 提出了一种前向位置预测方法,实现了旋转估计与平移估计之间的柔性解耦,使得能够独立估计旋转和平移。
  • 在前端提出了一种双阶段旋转和平移估计范式,利用球面对齐和连续时间优化提供了后端优化所需的精确初始位姿。
  • 建立了一个紧凑的 LiDAR SLAM 框架,集成了扫描到子地图的对齐和全局因子图优化,从而支持地面车辆在不平整地形中的定位。

问题定义

在世界坐标系 中,我们将车辆和 LiDAR 的坐标系分别表示为 和 。位姿由变换矩阵 表示,记为 ([R \mid t]),其中 表示旋转矩阵, 表示平移向量。对于一个车辆与 LiDAR 刚性连接的系统,车辆在世界坐标系下的位姿 可以通过 LiDAR 在世界坐标系下的位姿 计算得到:

其中 表示连接车辆和 LiDAR 的连接关系。此外,每次 LiDAR 扫描生成的点云 由点集 ({p_i \in P}) 组成, 表示点云地图。

我们假设车辆与 LiDAR 之间的刚性连接始终保持不变。我们的目标是确定 LiDAR 的位姿 ,然后通过公式(1)推导车辆的位姿 。

大多数基于 LiDAR 的 SLAM 方法在地面车辆经过不平整地形时会产生明显的垂直方向位姿漂移。导致这一问题的主要原因包括以下两个方面:

  1. 不平整地形表面:车辆的姿态,尤其是滚转角(roll)和俯仰角(pitch),随着地形表面的起伏而发生变化。在这种情况下,LiDAR 传感器在垂直方向上会产生较大的角位移。然而,由于 LiDAR 在垂直方向上的分辨率有限,这些位姿误差会逐渐累积。
  2. 点云配准方法的局限性:大多数用于 LiDAR SLAM 的点云配准方法采用迭代优化来逼近解。图 2 展示了在不平整地形上自动驾驶的一个示例。浅橙色车辆表示上一时刻的位置 ,深橙色车辆表示当前时刻的位置 。LiDAR 在这两个时刻生成的点云分别为 和 。从上一时刻到当前时刻的位姿变换 可通过以下公式计算:

其中 (\langle p_i^t, p_j^{t-1} \rangle) 表示点对的对应关系,其正确性直接影响公式(2)的解的质量。正确的点对对应关系要求点的变换与位姿变换一致,而错误的对应关系则会导致结果不一致。

然而,在不平整地形中,由于车辆剧烈摇晃,来自两次扫描的点云容易产生错误的对应关系。图 2 所示,蓝色点 来自 ,绿色点 和红色点 来自 。基于最近邻匹配规则,蓝色点被匹配到红色点生成对应关系。然而,由于无法反映 和 之间的俯仰角变化,该对应关系是错误的。正确的对应关系应为 ,能够有效反映变化。此外,优化变量 需要考虑 6 维位姿的变化,而不仅仅是平坦场景中的 3 维变化。这些因素导致最大共识集合的大小减少,从而影响解的质量。

本研究的目标是针对不平整地形中的车辆定位问题,如何利用单一 LiDAR 传感器提高车辆定位精度。为此,我们重构了整个前端并将其划分为多个模块以优化位姿估计。随后,我们引入了扫描到子地图的对齐和因子图,以在地图内优化车辆的位姿。​

具体方法​

ROLO-SLAM 系统流程

ROLO-SLAM 的体系架构如图 3 所示。该框架由两个主要组件组成:前端 LiDAR 里程计模块和后端建图模块。

首先,利用后端的里程计数据对 LiDAR 扫描数据进行矫正,以消除运动畸变。在前端,基于光滑度指标提取边缘和平面特征。随后,开发了一种前向位置预测,用于快速对 LiDAR 平移进行初步估计,从而实现旋转和平移的松散解耦。在此基础上,通过开发的体素化方法确定点云的对应关系。旋转和平移分别独立估计,其中旋转通过球面对齐模型注册,平移通过连续时间优化获得。

此外,后端通过关键帧的聚合来构建子地图,并通过扫描到子地图的对齐进行优化。最后,利用因子图进一步优化 LiDAR 的全局位姿和点云地图。​

前向位置预测

在前端,我们通过前向位置预测实现了连续扫描之间旋转和平移估计的解耦。这是通过消除扫描之间的平移差异来实现的。

图 4 展示了车辆在 平面上的快照,记录了相同扫描间隔内的车辆状态。给定第 次 LiDAR 扫描及其对应的机器人速度 ,上一时刻的机器人速度记为 。由于时间间隔足够小,利用现成的速度控制技术,可认为两次扫描之间的线速度保持一致,即 。因此,扫描之间的平移距离可以视为相同,即 。将车辆在第 次扫描时的位置表示为 ,其在 次扫描时的位置 可通过以下公式预估:

其中 表示第 次扫描的时间戳。接收到 后,可利用公式(3)在时间点 预估车辆位置,从而为扫描 和 的后续旋转与平移独立估计提供粗略约束。

对于车辆的旋转,俯仰角(pitch angle)受到地面表面约束,相较于平移,更容易受到地面起伏的影响。在实际应用中,地面起伏通常是未知的且非线性的,因此,在车辆移动过程中,俯仰角变化 很难保持一致。类似地,滚转角(roll angle)的分析也适用此情形。因此,我们在平移估计时不以同样的方式估计旋转。

传统的配准方法通常将旋转和平移估计结合起来,使得各自的独立挑战被掩盖,从而可能导致车辆姿态和位置估计的潜在不准确。通过引入前向位置预测,我们对连续 LiDAR 扫描之间的平移进行粗略估计,从而在前端实现了旋转和平移估计的解耦。这为扫描位置建立了一致的基准,预计能够提高车辆旋转估计的准确性。​

体素化匹配与旋转配准

在扫描之间准确识别点对点的对应关系是一个具有挑战性的问题。为了解决这一问题,我们首先提出了使用高斯体素地图的方法。稍作符号滥用,我们将两次相邻的扫描 和 分别表示为源点云 和目标点云 。高斯体素地图在目标点云 的坐标系中构建,其详细过程如 算法 1 所述。

我们构建了一个空体素地图 和一个体素索引集合 ,用于存储体素 的索引值。目标点云中的每个点 都会被分配到一个特定的体素,其索引计算公式为:

其中:

  • 是一个参考点,其坐标值分别为点云 中各方向上的最小坐标值 ([x_\text{min}, y_\text{min}, z_\text{min}]);
  • 、 和 分别表示体素地图的宽度、高度和分辨率;
  • 表示取整操作。

我们将任何受高斯白噪声影响的空间点 表示为:

其中 是点的位置, 是高斯白噪声的协方差矩阵。

对于目标点云中的点,每个体素不仅封装了一组空间点,还通过高斯分布描述了这些点的特性。对于每个体素 ,用一个高斯分布近似体素中的点的空间特性,其表达为:

其中:

  • 和 分别表示体素 中点的均值位置和协方差矩阵;
  • 是体素 中点的数量。

上述过程详细描述于 算法 1 的第 8-12 行。​

基于体素化的匹配

基于体素化处理后,我们避免直接考虑点对点的对应关系。相反,我们在此研究中寻找由源点 和目标体素 组成的对应对 。基于前向位置预测,我们获得平移信息。然后,我们将两个连续扫描的传感器中心对齐到同一原点并开始匹配,其详细过程如 算法 2 所述。

首先,我们根据 算法 1 为目标点云 构建体素地图 。然后,计算每个源点 在 中的对应体素索引,其计算公式为(见 算法 2 第 4 行):

匹配规则如 算法 2 第 5-7 行所示:当 的体素索引存在于 中且体素点数 时,生成对应对 。这里 是预设的最小点数阈值,以确保仅考虑能充分代表局部几何的体素来建立对应关系。​

旋转配准

通过匹配过程,我们得到了源点和目标体素之间的对应关系 。接下来,通过将源点云中的点与目标体素中的高斯分布均值 对齐,计算扫描之间的旋转。旋转配准模型如 图 5 所示。

通过前向位置预测,将两次扫描的传感器中心对齐到同一原点 。点云的旋转可以看作每个点沿着以 LiDAR 为中心的球面滑动,其半径等于点到传感器的距离。源点云 中的点 沿球面滑动以对齐目标体素的高斯分布均值 。

旋转对齐过程可表示为以下优化目标:

其中:

  • 表示源点与目标体素均值之间的球面角。

为了将角度度量转换为距离度量,我们提出了以下变换:

其中 是目标点 在球面切平面上的投影。其计算公式为:

其中 是目标点 的单位向量。

为进一步优化旋转,我们引入马氏距离定义优化目标函数:

其中:

  • 表示基于协方差矩阵 的马氏距离;

这里 和 分别为目标点和源点的协方差矩阵。

最终,该优化问题可通过高斯-牛顿(GN)或 Levenberg-Marquardt(LM)算法迭代求解。​

基于连续时间的平移优化

在前向位置预测之后,车辆的平移分量 已经得到了初步估计。然而,由于崎岖地形对位姿的影响,直接使用初步预测的平移可能会导致估计误差累积。因此,我们提出了一种基于连续时间的平移优化方法,以进一步提高位姿估计的准确性。​

平移模型

假设在两个连续扫描时刻 和 之间,车辆的平移可以通过以下公式表示为:

其中:

  • 表示车辆在时刻 的线速度;
  • 表示车辆的加速度;
  • 为时间间隔。

上述公式描述了车辆在连续扫描之间的平移变化,并将其分解为线速度和加速度的贡献。​

误差度量

为了优化平移估计,我们定义了误差度量函数,用于描述预测平移与实际平移之间的差异。误差函数可以表示为:

其中:

  • 和 分别表示目标点云和源点云中的点;
  • 是从时刻 到 的位姿变换矩阵。

通过最小化上述误差函数,我们可以优化平移分量 ,以更好地适应车辆的运动模式。​

连续时间优化

为了实现连续时间的平移优化,我们利用插值方法对车辆的速度和加速度进行建模。例如,可以采用样条插值(spline interpolation)来平滑速度 和加速度 的变化,从而在优化过程中提供连续的运动约束。

优化目标函数可以表示为:

其中:

  • 是基于协方差矩阵 的马氏距离;
  • 用于表示车辆运动的不确定性。

优化求解

该优化问题可以通过非线性最小二乘方法(如高斯-牛顿或 Levenberg-Marquardt 算法)求解。通过迭代优化,我们能够获得更为准确的平移分量 ,从而提高车辆在崎岖地形中的定位精度。​

后端建图与回环检测

为了减少累积误差并进一步优化位姿估计,我们在 ROLO-SLAM 的后端设计了一个建图与回环检测模块。该模块结合局部子地图构建和全局因子图优化,确保车辆的定位在长期运行中保持精确和一致。​

局部子地图构建

在后端,我们基于关键帧聚合构建局部子地图。关键帧是经过挑选的 LiDAR 扫描帧,能够充分代表车辆在环境中的运动状态。在生成局部子地图时,关键帧间的重叠率需要达到预设阈值,以确保每个子地图能够包含足够的环境特征。

局部子地图 的生成公式如下:

其中:

  • 是第 个关键帧的位姿;
  • 是对应的点云数据;
  • 是包含在子地图中的关键帧数量。

局部子地图的构建能够显著减少处理点云的计算量,同时为全局对齐和回环检测提供可靠的局部环境描述。​

回环检测与因子图优化

回环检测

回环检测的目的是识别车辆在某一时刻重新访问了先前经过的地点。这一过程通过当前扫描与全局地图的匹配来实现。当检测到回环时,我们将生成一个回环约束以减少累积误差。

回环检测的步骤包括:

  1. 从全局地图中提取候选关键帧;
  2. 通过快速点云描述子(如 FPFH 或 ISS 特征)进行粗匹配;
  3. 利用点对点的精确 ICP 算法进行精细配准,计算当前扫描与历史关键帧之间的相对位姿。

回环约束的数学表达式为:

其中:

  • 是当前关键帧的位姿;
  • 是检测到的历史关键帧的位姿。

因子图优化

为了整合局部子地图和回环约束,我们采用因子图(Factor Graph)来建模和优化全局位姿。因子图由节点和因子组成:

  • 节点表示车辆的位姿 ;
  • 因子表示来自前端的位姿约束、回环检测约束以及传感器噪声的影响。

优化目标是最小化所有因子的误差函数,公式如下:

其中:

  • 表示来自前端的里程计约束;
  • 表示回环检测约束;
  • 和 分别是前端约束和回环约束的数量。

因子图优化通常通过非线性最小二乘方法(如 Ceres 或 GTSAM)求解,以同时校正所有关键帧的全局位姿。​

全局地图生成

在优化完成后,所有关键帧的位姿被校正,并可用于生成全局地图 。全局地图的公式如下:

其中:

  • 是优化后的关键帧位姿;
  • 是对应的点云数据;
  • 是关键帧数量。

全局地图不仅能够准确描述环境,还可以用于导航、路径规划以及后续的定位任务。​

实验效果

总结一下

ROLO-SLAM是一种新颖的 LiDAR 专用 SLAM 框架,针对复杂地形下地面车辆的位姿漂移问题进行了优化。我们的框架通过前端和后端的协同设计,能够有效减少垂直方向的漂移,提高定位和建图精度。在实验中,ROLO-SLAM 在多种场景下展示了卓越的性能,尤其是在地形崎岖环境中的精度和鲁棒性。未来,我们计划将多传感器融合引入系统中,以进一步提升在极端场景下的鲁棒性和实时性。此外,开发更加高效的算法以进一步优化计算性能也是未来的研究方向。

#大疆智驾王炸

32TOPS跑通端到端,纯视觉有路就能开!

高阶智驾普及到10万级车的安卓时刻,现在已经有了明确时间表:

就在2025年Q1。

A级小车宝骏云海 车主成幸运儿,可能比很多四五十万、百万级车型用户更早享受到不分时段、不分地域,有路就能开的高阶智驾体验。

背后的推动者:卓驭科技大疆自动驾驶业务背后的公司实体。

据他们自己说,这套只用7个摄像头,32TOPS算力 实现无图端到端 的方案一旦交付,是行业核弹级别。

有没有吹牛画饼?智能车参考先替大家体验了一番。

32TOPS的端到端,好用吗?

体验路线围绕深圳卓驭总部周围,来回约30km路程,路段包括普通城市道路、城市快速路、城中村、施工路段等等。

时间是早上9点左右,正是早高峰时段,单程大概就需要40分钟时间。

这条路线,卓驭向我们保证没有任何针对性的优化和特调,线路本身也是有导航软件自动生成的。

第一个亮点,是0帧起手:大疆即将交付的纯视觉端到端系统,现在可以直接从路边临停状态下起步。

过程中还顺便避让了一个横穿街道的行人。

路途中的第一个难点,是一个不规则右转的路口,同时还有一辆临停汽车,转弯后道路又被成排违停车挤占:

难点在于智驾系统对场景的理解。因为违停、临停车辆占用正常行车道,所以很多系统会把这样的目标理解成正常等红灯的车流,尾随傻等...

卓驭这套7V 32TOPS系统的亮眼之在于正确理解目标状态,灵活识别整个场景的可通行区域,并正确做出决策。

深圳早高峰的第二个考验,来自"着急上班"的深圳司机:

处理这种突发cut in场景,其实保证安全下限并不难,直接刹停即可。但这样的被动触发的逻辑规则,难点在时机:到底对方侵入本车道什么程度采取急刹?

晚了不能保证安全,太早太谨慎又会破坏乘坐体验,造成被追尾风险。

卓驭纯视觉智驾的最大亮点,就是处理各种突发状况的表现 ,总结一个词------预期感,符合成熟司机对情况的预判和采取的策略。

就比如上面的货车侧向逼近抢道,系统其实早就"预判"目标意图,全程没有"前俯后仰"的急刹,沉着冷静的避让绕行。

毫无疑问,这是端到端、数据驱动的优势。

同样,复杂城市车流场景卓驭纯视觉系统依然能全程不接管,并且"丝滑"通行:

总结卓驭最新纯视觉智驾的表现,最令人吃惊的是仅在7V 32TOPS这样"简陋"的硬件条件下,实现智驾场景全覆盖,行业唯一。

额外的"惊喜",是整套系统高度满足老司机的"预期感","端味"很足,几乎感受不出任何生硬的手写规则痕迹。

全程体验下来有发现问题吗?

当然有。路口走错车道,本来要右转的场景,因为侧向司机不肯让行,最终系统"被逼无奈"直行,导致人工接管:

这样的失误在15公里左右路程中出现了2-3次,也是人工接管的唯一原因。

卓驭归因为安全优先的开发思路,意思是训练数据的选择上,不鼓励系统跟其他车辆争抢通行空间,所以只能"委屈"自己。

但是这样的缺陷对智驾连贯性体验影响很大,甚至严重影响车主出行计划和时间。卓驭内部,也将它列为TOP 1待解问题。

但解决问题的方法和周期,和以往大不相同。

"100%数据驱动",端味很足。

卓驭如何做端到端

对于端到端的理解和应用,卓驭明显比智驾流程模块的"模型化"更深一层。

就比如刚刚提到的"错过路口"问题,即使现在转向端到端的大部分玩家,思路依然是用一系列规则尝试解决:比如强制系统在离路口2公里时提前变道、即将错过路口时提示人工接管等等。

公开话术是"给端到端套上安全底线",其实是面对端到端的"黑盒"特性束手无策,想调参却无从下手。

事实却是:没有一种规则能清晰描述如何准确、安全的把握变道时机。所以规则本身只能做兜底,无法根本解决问题。

而卓驭则从端到端本质出发思考:

端到端模型本质是从大量数据中学习传感器数据→轨迹的映射关系,能力上限由数据驱动获得,所以关键在于高质量的数据获取和高效率的数据训练。

解决上述走错车道的方法,也就相应变成:

把类似以往人工规则的应用经验放回模型里面去训练。

简单理解就是如果系统走错车道(即违反"规则"),训练过程中就会产生惩罚。惩罚的数值越大越严重,就会越快让整个模型参数进行调整,最终让这个模型收敛到惩罚很少或较轻的稳定状态。

同样是规则引导,但不会以if else这种僵硬规则。

同时在"惩罚------收敛"的过程中,还可以在策略中加入更多语义信息,比如潮汐车道、公交车道一类,不断的把人工规则经验加入模型训练,最终时限在不写复杂代码的情况下,系统越来越像人。

相较于行业内一段式、多段式这种表层争论,卓驭不在乎谁更能代表"纯血"端到端,更在乎的是解决问题的思路、手段,是否真正实现"数据驱动"。

所以卓驭的纯视觉端到端和行业其他方案相比,有几个明显不同。

首先是采用二段式模式,让模型可解释,输出轨迹的逻辑有据可依

比如模型中的安全推理框架,其中的评估模块会用神经网络对端到端输出的各个候选轨迹评分,安全验证模块则通过冗余的软件和算法,参照功能安全机制,对最终输出轨迹的质量和安全性予以进一步保障。

其次,卓驭端到端不依赖硬件端的高成本黑科技,而是以大疆长期以来软硬结合积累为基础。

比如起源于大疆2016年发布的无人机双目视觉技术,现在成为卓驭中低算力平台双目增强端到端架构的核心,可同时提供图像+点云几何信息,让数据训练效率提升 10-20 倍,即达到同样性能所需训练数据量只需常规单目/异构单目方案的 10%左右,极大降低长尾数据需求。

第三点,卓驭在行业内首次对端到端的上限和潜力提出量化预估。

目前7V 32TOPS的纯视觉方案,在车端的模型参数量大约是1-3亿,已经可以覆盖所有智驾场景,但多车博弈场景仍有不足。

以这样的体验来看,卓驭认为这套端到端潜力开发程度,大概在30-40%之间

后续继续发掘潜力、提升体验的方式也有的放矢,即通过精准的训练数据筛选和定向优化手段,而不是简单粗暴的"大力出奇迹"。

所以大疆卓驭实现高阶智驾的大规模普及,是靠对端到端、数据驱动本质的理解和"因材施教",不是单方面压低价格"流血内卷"。

32TOPS的端到端,能买到吗?

其实已经有很多用户已经买到了这套卓驭端到端智驾。

就在今年一季度,宝骏云海首发。包括新车,也包括去年已经交付的车型。

因为底层硬件、传感器配置完全相同,可以直接OTA。

而这套低算力全场景高阶智驾一旦上车交付,毫无疑问是行业核弹级的意义和影响。

首个在中算力(32TOPS)上,实现 7V 端到端城市领航辅助驾驶。

首个全平台(中算力/高算力)实现端到端城市领航辅助驾驶。

原有车型平台可提供端到端免费升级,其中包括宝骏,iCAR 等已交付的量产车型。

首先是横向智驾竞赛层面。卓驭官宣成本5000块,只相当于其他高阶方案一个传感器的价格,实现的功能完全相同,体验甚至更好,后续潜力更大。

高阶智驾普及到10万级车型,会极大冲击激光雷达、20万以上车型垄断高阶智驾的用户认知和话语体系。

纵向技术层面,之前马斯克给5年前特斯拉更新FSD,证明了端到端不需要泼天算力,并且划定及格线144TOPS。大疆卓驭则大幅刷新这个纪录。

也让行业内更加准确认知端到端本质,既不过度神话,又给出了一条调参、迭代的可行方法。

最后是对产业链的影响。

7V 32TOPS的高阶智驾体验、潜力,卓驭已经作为明牌打了出来,彻底改变了以往智驾能力和算力的匹配逻辑。

上千TOPS的Thor量产后还适不适合L2+,是个问题了。

可能相比于算力数值的提升,智驾芯片架构层面的创新和舱驾一体才更关键。

大疆卓驭量产端到端,智驾软件算法又一次跑在硬件前面了。

One more thing

卓驭向智能车参考解释了"免费更新"的含义,我们也传递给大家:

最新端到端软件,卓驭确定给车企免费OTA

但车企收不收用户的钱,不是作为供应商的卓驭说了能算的。

所以,建议大家期待一波。

相关推荐
红岸JD瞭望者26 分钟前
彩漩科技入选2024AIGC赋能行业创新引领者及AI出海先锋
人工智能·科技
轩Scott29 分钟前
简述视觉语言模型(Vision-Language Models, VLMs)
人工智能·语言模型·自然语言处理
大模型铲屎官30 分钟前
深入NLP核心技术:文本张量表示与词嵌入全面解析
人工智能·pytorch·自然语言处理·大模型·nlp·词嵌入·文本张量表示
亲持红叶1 小时前
第四、五章图论和网络爬虫+网络搜索
人工智能·python·自然语言处理
檀越剑指大厂2 小时前
无需昂贵GPU:本地部署开源AI项目LocalAI你在消费级硬件上运行大模型
人工智能·开源
桂月二二3 小时前
利用ChatGPT API构建智能应用的最佳实践
人工智能·chatgpt
科技与数码5 小时前
倍思氮化镓充电器分享:Super GaN伸缩线快充35W
人工智能·神经网络·生成对抗网络
HUIBUR科技7 小时前
量子计算遇上人工智能:突破算力瓶颈的关键?
人工智能·量子计算
CES_Asia7 小时前
CES Asia 2025聚焦量子与空间技术
人工智能·科技·数码相机·金融·量子计算·智能手表
程序猿阿伟7 小时前
《量子比特:解锁人工智能并行计算加速的密钥》
人工智能·量子计算