自动驾驶感知相关算法

1.2D目标检测算法有哪些，核心原理是什么？

1.两阶段检测器(TWO stage)

代表：FASTER R-CNN系列

核心原理："先粗后精"的级联思想

第一步：RPN，生成稀疏的候选区域proposals，判断"哪里可能有东西"

第二步：Head，对候选区域进行精确分类和位置回归

精髓：精度高，因为对每个候选区域都进行了"二次审视"

2.单阶段检测器one-stage

代表：YOLO系列、SSD

核心原理："一步到位"的直接回归

方法：在特征图上密集采样（预设锚框），直接预测物体的类别和坐标

精髓：速度快，端到端推理，但早期版本在处理密集/小物体时精度略逊

3.基于transformer的检测器

代表：DETR及其变体

核心原理：端到端的集合预测

方法：即用transformer的注意力机制，将目标检测视为一个"预测无序集合"的问题，彻底去除了锚框anchor和非极大值抑制NMS等手工设计组件。

精髓：流程简化，动态关注物体。

3D目标检测算法有哪些，核心原理是什么？
3D目标检测根据输入数据模态的不同，主流方法可以分为以下三大类，核心在于如何从三维空间中感知物体的尺寸、中心和朝向：
1.基于点云的方法PointCloud-Based
核心痛点：点云稀疏、无序且密度不均
Point-based：基于点，PointNet++系列
原理：直接原始点云作为输入，通过最远点采样（FPS）和球查询（Ball Query）进行逐层的Set Abstraction（集合抽象），学习每个点的局部特征。
精髓：保留了最精细的几何结构，但计算量大。
Voxel-based：基于体素，VoxelNet、SECOND
原理：将不规则点云量化为规则的3D体素网络（Voxel），引入稀疏卷积（Sparse Convolution）高效提取特征，最后将3D特征压扁（Flatten）到BEV（Bird's Eye View，鸟瞰图）进行检测。
精髓：工程上平衡了效率和精度，是工业界主流（如PointPillars将其简化为柱体）。
2.基于多模态融合的方法（Fusion-Based）
核心痛点：图像有纹理但缺深度，点云有深度但缺语义
代表：MV3D、AVOD
原理：通常是"两步走"。先在3D空间生成候选区域（3D Proposals），将该区域分别投影到前视图（图像）和鸟瞰图（点云）上，通过ROIPooling（兴趣区域池化）截取特征并进行融合。
精髓：利用点云的精确定位能力 + 图像的语义识别能力。
3.基于图像（伪点云）的方法
核心痛点：纯视觉做3D难度大（深度估计不准）
代表：FCOS3D、BEVDet、Tesla的Occupancy Networlk
原理（BEV范式的兴起）：利用transformer机制（如IPM（Inverse Perspective Mapping，逆透视变换）/LSS（Lift-Splat-Shoot，提升-铺平-射击）），将多视角2D图像特征通过注意力机制转换到统一的BEV空间（鸟瞰图），然后在BEV空间进行3D检测。
精髓：解决了透视投影的尺度模糊性，直接在"上帝视角"处理遮挡和尺度问题。

3.BEV感知算法有哪些，核心原理是什么？

BEV的核心原理是"视角转换"，即将多个传感器（通常是环视摄像头）的数据从各自的视角统一转换到鸟瞰图（Bird's Eye View）空间，在统一的坐标系下进行特征融合和推理。

主流方法根据视角转换方式分为三类：

1.基于深度显示估计的方法（LSS范式）

代表：LSS（Lift-Splat-Shoot）、BEVDet、BEVDepth

核心原理："先估计，再投影"

1.Lift：为每个2D像素预测一个深度分布（Depth Distribution），将图像特征"提升"到3D空间（生成视锥点云）。

2.Splat：将这些3D特征"拍平"/池化到预定义的BEV网络中，形成BEV特征。

精髓：几何先验强，可解释性好；但严重依赖深度估计的准确性

2.基于transformer注意力机制的方法（Query-based）

代表：BEVFormer、PETR

核心原理："先查询，再采样"

1.定义BEV Query：初始化一组可学习的网格点作为BEV空间的特征向量。

2.跨视角交互：利用注意力机制（Deformable Attention），让每个BEV Query自动关注（采样）其在多视角2D图像中对应的像素区域。

精髓：利用Transformer的动态交互，避免了显式深度估计，端到端效果更好，是目前学术界主流。

3.基于transformer的前视转换的方法（MLP/Transformer）

代表：VPN、PON

核心原理：将这个问题视为一个数据驱动的"域转换"问题。

方法：直接使用全连接层（MLP）或transformer将前视（Perspective View）特征图通过隐式学习映射到BEV特征图。

精髓：结构简单，但缺乏几何约束，通常需要大量数据驱动。

Occupancy网络算法有哪些，核心原理是什么？
核心原理：将自动驾驶的感知任务从"识别物体是什么"转变为"判断空间是否被占"。它将3D空间划分为微小的体素（Voxel），并预测每个体素的状态（空闲/占用、运动流）。其主流算法主要分为以下三类技术路径：
1.隐式神经表示范式（Tesla为代表）
核心原理：利用MLP解码器，对空间中任意坐标（x，y，z）实时查询其占用状态和运动流（Flow），结合时序融合（Spatial RNN）处理遮挡和动态物体。
精髓：用连续场（Implicit Field）表达离散网格，兼具内存效率和细节精度。
2.体素级联优化范式（OccNet为代表）
核心原理：采用"由粗到精"的级联策略降低计算成本
方法：先预测低分辨率的粗粒度占用，再利用3D可变形注意力或高可分辨率查询（High-Resolution Quries）逐步细化体素细节。
精髓：在有限算力下，通过多级细化（Cascade Decorder）平衡效率和精度。
3.多模态融合与BEV提升范式
核心原理：将2D BEV特征提升到（Lift）到3D空间。
方法：利用可变形卷积（Deformable Conv）或注意力融合（Voxel-wise Attention）将BEV特征转换为3D体素特征，并集成激光雷达或SAM（Segment Anything Model）的细粒度特征以增强边界细节。
精髓：通过高效的2D到3D映射（Fast Occ），复用成熟的BEV感知体系。

5.TensorRT核心要点及trick

核心要点：通过层间融合、精度校准和内核调优，将深度学习模型极致压缩并加速推理。

主要有以下三个层面：

1.核心优化机制（怎么快的？）

张量融合（Vertical/Herizontal Fusion）：将卷积、BN、激活等串行层合并为单一的CBR（Conv-BN-ReLU）结构垂直融合，或将同源输入的同类型操作合并（水平融合），减少内存读写和Kernel Launch开销。

精度校准（FP16/INT8）：训练使用FP32，推理引入低精度。特别是INT8使用校准表（Calibration Table），通过KL散度或熵标准（Entropy Calibration）最小化量化损失，找到FP32分布到INT8分布的最佳阈值（SmoothQuant等新方法处理大模型）。

动态张量内存复用：为每个张量分配指针，并不在使用时直接覆盖，大幅度降低现存峰值。

2.工作流于构建方式（怎么用的？）

静态图模式：TensorRT要求模型是静态的。核心工作流：解析模型-》构建引擎(Builder)->序列化引擎（Serilazation，生成.engine文件）-〉反序列化推理

插件（Plugin）：遇到不支持的算子（如自定义激活函数），必须编写Plugin（继承IPlugin2），实现前后向推导及序列化，否则无法构建引擎。

3.常用Trick与踩坑点（怎么更快的？）

动态shape优化：如果输入尺寸可变，必须设置优化配置文件（Optimization Profile）定义min、opt、max的batch/size。Builder会根据opt维度选择内核，超出Max范围会报错。

显存碎片化：多次创建/销毁引擎会导致显存碎片。Trick：推理时使用池化（Stream机制）复用上下文（Context），或者一次构建长期持有。

DLA（Deep Learning Accelerator）利用：在嵌入式平台（如Xavier/Orin），可将特定层（如卷积）卸载到DLA核心，降低功耗并释放GPU资源给复杂算子。

6.NVIDIA Jetson简介和要点

Nvidia Jetson是专为边缘AI和机器人设计的嵌入式计算平台，核心在于高效能的异构计算和统一的软件生态。主要有以下三个层面：

1.硬件核心：模组与异构架构

模组化设计：Jetson以系统模组（SOM）形式提供，集成CPU、GPU、内存和电源管理，体积小（如Orin Nano仅45x75mm），用户只需设计载板即可快速量产。

异构加速单元：除GPU外，内置专用硬件加速器：

DLA：深度学习加速器，用于高效运行CNN推理

PVA：可编程视觉加速器，卸载光流、立体视觉等预处理

VIC/OFA：视频图像合成器与光流加速器。

精髓：合理分配任务（CV卸载至PVA，AI留给GPU），大幅提升能效比和实时性。

2.软件栈：JetPack与全栈工具

JetPack SDK：核心软件开发包，包含Linux内核（L4T）、CUDA、TensorRT、DeepStream、VPI（视觉编程接口）等，提供端到端加速。

应用框架：基于Isaac（机器人）、Metropolis（视觉Ai）等微服务，开发者可快速搭建复杂pipeline。

精髓：软件定义平台，云端训练模型可无缝部署至边缘。

3.主力产品线对比与选型

Jetson Orin系列覆盖7W-60W功耗，性能从几十到275 TOPS；最新Jetson Thor面向人形机器人，算力达2000+ TOPS，支持生成式AI大模型实时推理。

This content is only supported in a Feishu Docs

选型口诀：看算法（生成式还是传统CNN）、看功耗（手持还是固定）、看接口（摄像头数量与带宽）。

ROS2核心架构及要点
核心：为分布式、实时性和生产级机器人系统重新设计的通信框架
要点：
1.核心通信框架：DCS（数据分发服务）
彻底底层重构：放弃ROS1的自定义TCP/UDP协议，原生采用DDS（数据分发服务，Data Distribution Service）作为底层通信中间件。
去中心化：抛弃ROS1的Master节点，节点发现、数据传输由DDS（如Fast DDS、Cyclone DDS）在分布式网络中自动完成，天生支持多机协同和跨语言。
Qos（服务质量）策略：核心精髓。允许用户自定义通信策略（如可靠VS尽力、保持VS瞬态），实现音视频流（低延迟）和点云数据（无损）的差异化传输控制。
2.系统架构：分层与模块化
中间件接口层：ROS2本身是抽象层，可更换底层DDS实现（类似Linux文件系统VFS），避免被特定厂商锁定。
节点生命周期：引入状态机管理（未配置、未激活、激活），允许外部工具（如ros2 lifecycle）动态控制节点的启动/停止/暂停，支持系统热重启和错误恢复。
多租户支持：单个进程可启动多个节点（Component，组件化），支持进程内拷贝通信，降低嵌入式设备的内存开销。
3.关键工具与实时性
CLI工具统一：使用ROS2命令行统一管理（ros2 run、 ros2 topic、ros2 node），告别ROS1多个分散命令（rostopic、rosservice等）
实时性（Real-Time）：通过Executor（执行器）控制回调执行策略（Multi-Threaded Executor），可固定线程CPU亲和性，避免优先级反转，支持抢占式调度。
安全机制：集成SROS2，提供加密通信、节点身份认证和权限控制，满足工业安全标准。

8.CyberRT框架核心架构及要点

9.点云处理:熟悉常见的点云处理算法(如聚类、分割)或主流的点云深度学习网络。

10.SLAM算法有哪些，核心原理是什么？