1.2D目标检测算法有哪些,核心原理是什么?
1.两阶段检测器(TWO stage)
代表:FASTER R-CNN系列
核心原理:"先粗后精"的级联思想
第一步:RPN,生成稀疏的候选区域proposals,判断"哪里可能有东西"
第二步:Head,对候选区域进行精确分类和位置回归
精髓:精度高,因为对每个候选区域都进行了"二次审视"
2.单阶段检测器one-stage
代表:YOLO系列、SSD
核心原理:"一步到位"的直接回归
方法:在特征图上密集采样(预设锚框),直接预测物体的类别和坐标
精髓:速度快,端到端推理,但早期版本在处理密集/小物体时精度略逊
3.基于transformer的检测器
代表:DETR及其变体
核心原理:端到端的集合预测
方法:即用transformer的注意力机制,将目标检测视为一个"预测无序集合"的问题,彻底去除了锚框anchor和非极大值抑制NMS等手工设计组件。
精髓:流程简化,动态关注物体。
- 3D目标检测算法有哪些,核心原理是什么?
3D目标检测根据输入数据模态的不同,主流方法可以分为以下三大类,核心在于如何从三维空间中感知物体的尺寸、中心和朝向:
1.基于点云的方法PointCloud-Based
核心痛点:点云稀疏、无序且密度不均
Point-based:基于点,PointNet++系列
原理:直接原始点云作为输入,通过最远点采样(FPS)和球查询(Ball Query)进行逐层的Set Abstraction(集合抽象),学习每个点的局部特征。
精髓:保留了最精细的几何结构,但计算量大。
Voxel-based:基于体素,VoxelNet、SECOND
原理:将不规则点云量化为规则的3D体素网络(Voxel),引入稀疏卷积(Sparse Convolution)高效提取特征,最后将3D特征压扁(Flatten)到BEV(Bird's Eye View,鸟瞰图)进行检测。
精髓:工程上平衡了效率和精度,是工业界主流(如PointPillars将其简化为柱体)。
2.基于多模态融合的方法(Fusion-Based)
核心痛点:图像有纹理但缺深度,点云有深度但缺语义
代表:MV3D、AVOD
原理:通常是"两步走"。先在3D空间生成候选区域(3D Proposals),将该区域分别投影到前视图(图像)和鸟瞰图(点云)上,通过ROIPooling(兴趣区域池化)截取特征并进行融合。
精髓:利用点云的精确定位能力 + 图像的语义识别能力。
3.基于图像(伪点云)的方法
核心痛点:纯视觉做3D难度大(深度估计不准)
代表:FCOS3D、BEVDet、Tesla的Occupancy Networlk
原理(BEV范式的兴起):利用transformer机制(如IPM(Inverse Perspective Mapping,逆透视变换)/LSS(Lift-Splat-Shoot,提升-铺平-射击)),将多视角2D图像特征通过注意力机制转换到统一的BEV空间(鸟瞰图),然后在BEV空间进行3D检测。
精髓:解决了透视投影的尺度模糊性,直接在"上帝视角"处理遮挡和尺度问题。
3.BEV感知算法有哪些,核心原理是什么?
BEV的核心原理是"视角转换",即将多个传感器(通常是环视摄像头)的数据从各自的视角统一转换到鸟瞰图(Bird's Eye View)空间,在统一的坐标系下进行特征融合和推理。
主流方法根据视角转换方式分为三类:
1.基于深度显示估计的方法(LSS范式)
代表:LSS(Lift-Splat-Shoot)、BEVDet、BEVDepth
核心原理:"先估计,再投影"
1.Lift:为每个2D像素预测一个深度分布(Depth Distribution),将图像特征"提升"到3D空间(生成视锥点云)。
2.Splat:将这些3D特征"拍平"/池化到预定义的BEV网络中,形成BEV特征。
精髓:几何先验强,可解释性好;但严重依赖深度估计的准确性
2.基于transformer注意力机制的方法(Query-based)
代表:BEVFormer、PETR
核心原理:"先查询,再采样"
1.定义BEV Query:初始化一组可学习的网格点作为BEV空间的特征向量。
2.跨视角交互:利用注意力机制(Deformable Attention),让每个BEV Query自动关注(采样)其在多视角2D图像中对应的像素区域。
精髓:利用Transformer的动态交互,避免了显式深度估计,端到端效果更好,是目前学术界主流。
3.基于transformer的前视转换的方法(MLP/Transformer)
代表:VPN、PON
核心原理:将这个问题视为一个数据驱动的"域转换"问题。
方法:直接使用全连接层(MLP)或transformer将前视(Perspective View)特征图通过隐式学习映射到BEV特征图。
精髓:结构简单,但缺乏几何约束,通常需要大量数据驱动。
- Occupancy网络算法有哪些,核心原理是什么?
核心原理:将自动驾驶的感知任务从"识别物体是什么"转变为"判断空间是否被占"。它将3D空间划分为微小的体素(Voxel),并预测每个体素的状态(空闲/占用、运动流)。其主流算法主要分为以下三类技术路径:
1.隐式神经表示范式(Tesla为代表)
核心原理:利用MLP解码器,对空间中任意坐标(x,y,z)实时查询其占用状态和运动流(Flow),结合时序融合(Spatial RNN)处理遮挡和动态物体。
精髓:用连续场(Implicit Field)表达离散网格,兼具内存效率和细节精度。
2.体素级联优化范式(OccNet为代表)
核心原理:采用"由粗到精"的级联策略降低计算成本
方法:先预测低分辨率的粗粒度占用,再利用3D可变形注意力或高可分辨率查询(High-Resolution Quries)逐步细化体素细节。
精髓:在有限算力下,通过多级细化(Cascade Decorder)平衡效率和精度。
3.多模态融合与BEV提升范式
核心原理:将2D BEV特征提升到(Lift)到3D空间。
方法:利用可变形卷积(Deformable Conv)或注意力融合(Voxel-wise Attention)将BEV特征转换为3D体素特征,并集成激光雷达或SAM(Segment Anything Model)的细粒度特征以增强边界细节。
精髓:通过高效的2D到3D映射(Fast Occ),复用成熟的BEV感知体系。
5.TensorRT核心要点及trick
核心要点:通过层间融合、精度校准和内核调优,将深度学习模型极致压缩并加速推理。
主要有以下三个层面:
1.核心优化机制(怎么快的?)
张量融合(Vertical/Herizontal Fusion):将卷积、BN、激活等串行层合并为单一的CBR(Conv-BN-ReLU)结构垂直融合,或将同源输入的同类型操作合并(水平融合),减少内存读写和Kernel Launch开销。
精度校准(FP16/INT8):训练使用FP32,推理引入低精度。特别是INT8使用校准表(Calibration Table),通过KL散度或熵标准(Entropy Calibration)最小化量化损失,找到FP32分布到INT8分布的最佳阈值(SmoothQuant等新方法处理大模型)。
动态张量内存复用:为每个张量分配指针,并不在使用时直接覆盖,大幅度降低现存峰值。
2.工作流于构建方式(怎么用的?)
静态图模式:TensorRT要求模型是静态的。核心工作流:解析模型-》构建引擎(Builder)->序列化引擎(Serilazation,生成.engine文件)-〉反序列化推理
插件(Plugin):遇到不支持的算子(如自定义激活函数),必须编写Plugin(继承IPlugin2),实现前后向推导及序列化,否则无法构建引擎。
3.常用Trick与踩坑点(怎么更快的?)
动态shape优化:如果输入尺寸可变,必须设置优化配置文件(Optimization Profile)定义min、opt、max的batch/size。Builder会根据opt维度选择内核,超出Max范围会报错。
显存碎片化:多次创建/销毁引擎会导致显存碎片。Trick:推理时使用池化(Stream机制)复用上下文(Context),或者一次构建长期持有。
DLA(Deep Learning Accelerator)利用:在嵌入式平台(如Xavier/Orin),可将特定层(如卷积)卸载到DLA核心,降低功耗并释放GPU资源给复杂算子。
6.NVIDIA Jetson简介和要点
Nvidia Jetson是专为边缘AI和机器人设计的嵌入式计算平台,核心在于高效能的异构计算和统一的软件生态。主要有以下三个层面:
1.硬件核心:模组与异构架构
模组化设计:Jetson以系统模组(SOM)形式提供,集成CPU、GPU、内存和电源管理,体积小(如Orin Nano仅45x75mm),用户只需设计载板即可快速量产。
异构加速单元:除GPU外,内置专用硬件加速器:
DLA:深度学习加速器,用于高效运行CNN推理
PVA:可编程视觉加速器,卸载光流、立体视觉等预处理
VIC/OFA:视频图像合成器与光流加速器。
精髓:合理分配任务(CV卸载至PVA,AI留给GPU),大幅提升能效比和实时性。
2.软件栈:JetPack与全栈工具
JetPack SDK:核心软件开发包,包含Linux内核(L4T)、CUDA、TensorRT、DeepStream、VPI(视觉编程接口)等,提供端到端加速。
应用框架:基于Isaac(机器人)、Metropolis(视觉Ai)等微服务,开发者可快速搭建复杂pipeline。
精髓:软件定义平台,云端训练模型可无缝部署至边缘。
3.主力产品线对比与选型
Jetson Orin系列覆盖7W-60W功耗,性能从几十到275 TOPS;最新Jetson Thor面向人形机器人,算力达2000+ TOPS,支持生成式AI大模型实时推理。
This content is only supported in a Feishu Docs
选型口诀:看算法(生成式还是传统CNN)、看功耗(手持还是固定)、看接口(摄像头数量与带宽)。
- ROS2核心架构及要点
核心:为分布式、实时性和生产级机器人系统重新设计的通信框架
要点:
1.核心通信框架:DCS(数据分发服务)
彻底底层重构:放弃ROS1的自定义TCP/UDP协议,原生采用DDS(数据分发服务,Data Distribution Service)作为底层通信中间件。
去中心化:抛弃ROS1的Master节点,节点发现、数据传输由DDS(如Fast DDS、Cyclone DDS)在分布式网络中自动完成,天生支持多机协同和跨语言。
Qos(服务质量)策略:核心精髓。允许用户自定义通信策略(如可靠VS尽力、保持VS瞬态),实现音视频流(低延迟)和点云数据(无损)的差异化传输控制。
2.系统架构:分层与模块化
中间件接口层:ROS2本身是抽象层,可更换底层DDS实现(类似Linux文件系统VFS),避免被特定厂商锁定。
节点生命周期:引入状态机管理(未配置、未激活、激活),允许外部工具(如ros2 lifecycle)动态控制节点的启动/停止/暂停,支持系统热重启和错误恢复。
多租户支持:单个进程可启动多个节点(Component,组件化),支持进程内拷贝通信,降低嵌入式设备的内存开销。
3.关键工具与实时性
CLI工具统一:使用ROS2命令行统一管理(ros2 run、 ros2 topic、ros2 node),告别ROS1多个分散命令(rostopic、rosservice等)
实时性(Real-Time):通过Executor(执行器)控制回调执行策略(Multi-Threaded Executor),可固定线程CPU亲和性,避免优先级反转,支持抢占式调度。
安全机制:集成SROS2,提供加密通信、节点身份认证和权限控制,满足工业安全标准。
8.CyberRT框架核心架构及要点
9.点云处理:熟悉常见的点云处理算法(如聚类、分割)或主流的点云深度学习网络。
10.SLAM算法有哪些,核心原理是什么?