浪潮信息F-OCC算法夺冠,自动驾驶感知技术再创新高

浪潮信息,作为行业领先的AI技术提供商,其AI团队在近期举办的全球权威CVPR 2024自动驾驶国际挑战赛(Autonomous Grand Challenge)中大放异彩,凭借"F-OCC"算法模型以48.9%的卓越成绩,一举夺得占据栅格和运动估计(Occupancy & Flow)赛道的冠军宝座。这一成就不仅延续了浪潮信息在2022年与2023年多次登顶nuSences 3D目标检测榜单的辉煌,更是在Occupancy技术领域实现了新的突破,展现了浪潮信息在自动驾驶感知领域对高度动态及不规则驾驶场景精准3D感知及运动预测的强大实力。

图1-浪潮信息AI团队斩获占据栅格和运动估计赛道第一名

三维感知和预测是自动驾驶领域的新兴任务,要求对车辆行驶场景进行细粒度建模,对于提升自动驾驶的环境感知能力有着重要意义。此次浪潮信息AI团队所登顶的占据栅格和运动估计(Occupancy & Flow)赛道,是CVPR 2024自动驾驶国际挑战赛最受关注的赛道,聚焦感知任务,吸引了全球17个国家和地区,90余支顶尖AI团队参与挑战。比赛提供了基于 nuScenes 数据集的大规模占用栅格数据与评测标准, 要求参赛队伍利用相机图像信息对栅格化三维空间的占据情况(Occupancy)和运动(Flow)进行预测,以此来评估感知系统对高度动态及不规则驾驶场景的表示能力。

占据栅格 Occupancy:挑战更精细的环境感知与预测

道路布局的复杂性、交通工具的多样性以及行人流量的密集性,是当前城市道路交通的现状,也是自动驾驶领域面临的现实挑战。为了应对这一挑战,有效的障碍物识别和避障策略,以及对三维环境的感知和理解就变得至关重要。传统的三维物体检测方法通常使用边界框来表示物体的位置和大小,但对于几何形状复杂的物体,这种方法往往无法准确描述其形状特征,同时也会忽略对背景元素的感知。因此,基于三维边界框的传统感知方法已经无法满足复杂道路环境下的精准感知和预测需求。

图2 - 针对挖车中的力臂,3D目标检测算法只能给出挖车整体的轮廓框(左),但占据栅格网络却可以更精准地描述挖车具体的几何形状这类细节信息(右)

Occupancy Networks(占据栅格网络) 作为一种全新的自动驾驶感知算法,通过获取立体的栅格占据信息,使系统能够在三维空间中确定物体的位置和形状,进而有效识别和处理那些未被明确标注或形状复杂的障碍物,如异形车、路上的石头、散落的纸箱等。这种占据栅格网络使得自动驾驶系统能够更准确地理解周围的环境,不仅能识别物体,还能区分静态和动态物体。并以较高的分辨率和精度表示三维环境,对提升自动驾驶系统在复杂场景下的安全性、精度和可靠性至关重要。

全面提升!48.9%的绝佳性能表现,创本赛道最高成绩

在占据栅格和运动估计(Occupancy & Flow)赛道中,该AI团队所提交的"F-OCC"算法模型,凭借先进的模型结构设计、数据处理能力和算子优化能力,实现了该赛道最强模型性能,在RayIoU(基于投射光线的方式评估栅格的占用情况)及mAVE(平均速度误差)两个评测指标中均获得最高成绩。

■ 更简洁高效的模型架构,实现运算效率与检测性能双突破

首先,模型整体选择基于前向投影的感知架构,并采用高效且性能良好的FlashInternImage模型。同时,通过对整体流程进行超参调优、算子加速等优化,在占据栅格(Occupancy)和运动估计(Flow)均获得最高分的同时,提升了模型的运算效率,加快了模型迭代与推理速度。在实际应用场景中,这种改进使得模型能够更快速、高效地处理大规模3D体素数据,使得自动驾驶车辆能更好地理解环境,进而提升决策的准确度和实时性。

图3 - F-OCC算法模型架构图

■ 更强大完善的数据处理,全面提升模型检测能力

在数据处理方面,比赛提供的体素(Voxel)标签包含了大量在图像中无法观测到的点,例如被物体遮挡的体素和物体内部不可见的体素,这些标签在训练过程中会对基于图像数据的预测网络训练产生干扰。在训练数据中,该AI团队通过模拟LiDAR光束的方法,生成可视化掩码,提升了模型的预测精度;另一方面,通过引入感知范围边缘的体素点参与训练,有效解决出现在感知边缘区域的误检问题,将模型的整体检测性能提升11%。

■ 更精细的3D体素编码,模型占据预测能力提升超5%

在3D体素特征编码模块中,该算法团队将具有较大感知范围和编码能力的可形变卷积操作应用于3D体素数据,以提升3D特征的表示能力。通过使用CUDA对可形变3D卷积(DCN3D)进行实现与优化,大幅提升了模型的运算速度,并有效降低了显存消耗。通过DCN3D替代传统3D卷积,模型整体占据预测能力提升超5%。

浪潮信息AI团队凭借"F-OCC"算法模型在占据栅格和运动估计赛道夺冠,不仅彰显了其OCC 3D空间感知算法的创新实力,还以48.9%的卓越成绩为自动驾驶技术突破树立了新标杆。展望未来,浪潮信息将继续依托其强大的算法与算力融合能力,深化AI全栈优化策略,从多个维度切入,引领自动驾驶技术领域的创新发展,为全球自动驾驶技术的进步贡献智慧与力量。

相关推荐
网易独家音乐人Mike Zhou13 分钟前
【卡尔曼滤波】数据预测Prediction观测器的理论推导及应用 C语言、Python实现(Kalman Filter)
c语言·python·单片机·物联网·算法·嵌入式·iot
小陈phd16 分钟前
OpenCV从入门到精通实战(九)——基于dlib的疲劳监测 ear计算
人工智能·opencv·计算机视觉
Guofu_Liao1 小时前
大语言模型---LoRA简介;LoRA的优势;LoRA训练步骤;总结
人工智能·语言模型·自然语言处理·矩阵·llama
Swift社区4 小时前
LeetCode - #139 单词拆分
算法·leetcode·职场和发展
Kent_J_Truman4 小时前
greater<>() 、less<>()及运算符 < 重载在排序和堆中的使用
算法
IT 青年5 小时前
数据结构 (1)基本概念和术语
数据结构·算法
ZHOU_WUYI5 小时前
3.langchain中的prompt模板 (few shot examples in chat models)
人工智能·langchain·prompt
Dong雨5 小时前
力扣hot100-->栈/单调栈
算法·leetcode·职场和发展
如若1235 小时前
主要用于图像的颜色提取、替换以及区域修改
人工智能·opencv·计算机视觉
SoraLuna5 小时前
「Mac玩转仓颉内测版24」基础篇4 - 浮点类型详解
开发语言·算法·macos·cangjie