具身智能(3):有哪些AI模型

前言:

bev鸟瞰图模型 、 classification分类模型、 detection检测模型、disparity_pred深度估计模型、multitask多任务模型、online_map在线建图模型、opticalflow光流模型、segmentation分割模型、tracking追踪模型、traj_pred轨迹预测等

BEV鸟瞰图模型

1. 视图转换类(CNN 基)
  • LSS(Lift-Splat-Shoot) :BEV 感知开山之作。先从多视图图像预测深度分布,将 2D 特征 "提升" 为 3D 体素,再 "散开" 到 BEV 空间,最后通过卷积 "射击" 生成 BEV 特征。
  • ✅ 优点:原理清晰、稳定、工程友好;
  • ❌ 缺点:深度估计误差直接影响投影精度。
  • BEVDet:基于 LSS 的检测专用框架,分 v1/v2/v3 系列,适配不同算力。
  • ✅ 优点:部署成熟、支持多任务头;
  • ❌ 缺点:时序融合弱于 Transformer 类。
  • BEVDepth:改进 LSS 深度估计,显式建模深度不确定性,提升远距小目标表现。
  • ✅ 优点:纯视觉下精度提升明显;
  • ❌ 缺点:深度分支训练成本略高。
2. Query 类(Transformer 基)
  • BEVFormer :标杆性 Query 模型。在 BEV 空间预设 Query,通过变形注意力(Deformable Attention)从多视图图像中稀疏采样聚合特征,天然支持时序融合。
  • ✅ 优点:时序感知强、多任务统一、精度领先;
  • ❌ 缺点:算力高于 CNN 类,部署需优化。
  • BEVFormerV2:升级版,增强主干网络监督与数据增强,提升收敛速度与精度。
  • ✅ 优点:适配大规模数据,支持多模态;
  • ❌ 缺点:训练资源需求更高。
  • DETR3D:将 3D 检测视为集合预测,直接从 BEV Query 生成 3D 框,端到端训练。
  • ✅ 优点:无锚框设计,适合复杂场景;
  • ❌ 缺点:收敛慢,算力消耗大。
3. 多传感器融合类
  • BEVFusion :统一 BEV 空间,将相机与激光雷达特征对齐后融合。分特征级融合 (主流)与点云 - 图像级融合,支持动态权重分配。
  • ✅ 优点:鲁棒性强,雨天 / 遮挡表现好;
  • ❌ 缺点:激光雷达硬件成本高。
  • Sparse4D:稀疏张量 + 原始数据前融合,端到端训练,提升融合效率。
  • ✅ 优点:计算量低、实时性强;
  • ❌ 缺点:工程实现复杂。
  • BEV-SAN:空间自适应注意力融合,为 BEV 每个位置动态分配相机 / 激光权重。
  • ✅ 优点:场景自适应强,解决固定权重泛化差问题;
  • ❌ 缺点:推理略慢。
4. 4D 占用 / 端到端类
  • Occ-BEV:BEV + 占用预测,输出 3D 体素占据网格,支持语义与实例分割。
  • ✅ 优点:支持异形物体、长尾场景;
  • ❌ 缺点:体素化计算量大。
  • Tesla Occupancy Network:特斯拉量产方案,基于 BEV+Transformer 预测体素占用,替代传统 3D 检测。
  • ✅ 优点:全链路高效、适配高阶智驾;
  • ❌ 缺点:依赖车载大算力平台。
  • UniAD:端到端模型,将感知、预测、规划统一为单网络。
  • ✅ 优点:减少模块延迟,响应速度快;
  • ❌ 缺点:训练与调试复杂。

选型建议(按场景)

  1. 纯视觉量产 :优先 LSS/BEVDet (稳定易部署);追求精度可选 BEVDepthBEVFormer(轻量化版)
  2. 城市复杂路况 :选 BEVFormer/BEVFormerV2 (时序融合强)或 BEVFusion(多模态鲁棒)。
  3. 高阶智驾(激光雷达) :选 BEVFusion (特征级融合)或 Sparse4D(稀疏高效)。
  4. 精细场景理解 :选 Occ-BEV/Tesla Occupancy(体素占用)。
  5. 成本敏感 :优先 LSS/BEVDet(纯视觉 CNN 类),搭配轻量化骨干与量化。

2025--2026 前沿方向

  • 稀疏与高效:SparseBEV、Sparse4D(全稀疏架构,兼顾精度与实时性)。
  • Mamba 替代 Transformer:MambaBEV(用 SSM 替代注意力,降低算力与内存)。
  • 端到端一体化:UniAD、XNet 2.0(感知→预测→规划单网络)。
  • 自监督 / 弱监督:SelfBEV、WeakBEV(降低标注成本,实车数据闭环)。

Classification分类模型

1、经典 CNN 分类模型

  1. LeNet最早的卷积分类网络,手写数字识别。
  2. AlexNet开启深度学习热潮,双 GPU、ReLU、Dropout。
  3. **VGGNet(VGG16 / VGG19)**结构简单、全 3×3 卷积,非常稳定,适合小数据集。
  4. **GoogLeNet / Inception(v1--v4)**多尺度卷积、1×1 降维,计算效率高。
  5. ResNet(18/34/50/101/152) 残差连接,解决深层训练难,最通用、最常用
  6. ResNeXt分组卷积,精度更高,参量可控。
  7. DenseNet密集连接,特征复用,小模型效果好。
  8. MobileNet(v1/v2/v3) 深度可分离卷积,移动端 / 边缘端首选
  9. ShuffleNet通道洗牌,超轻量模型。
  10. EfficientNet(B0--B7) 自动搜索最优宽度 / 深度 / 分辨率,精度极高
  11. ConvNeXt纯 CNN 对标 Transformer,精度强、好训练。

2、Transformer 分类模型

  1. **ViT(Vision Transformer)**纯 Transformer 做分类,里程碑。
  2. Swin Transformer 分层窗口注意力,通用强、下游任务无敌
  3. DeiT蒸馏版 ViT,训练更稳、更快。
  4. T2T-ViT渐进式 Token 化,小数据也能用。
  5. PVT / PVTv2金字塔 ViT,适合检测 / 分割。
  6. CrossViT多尺度分支交叉注意力。

3、轻量高效(适合部署 / 量化)

  • MobileOne
  • MobileViT
  • EfficientNet-Lite
  • RepVGG(重参数化,训练多分支,推理单路)
  • MobileDense
  • ShuffleNetV2

4、2025--2026 最新主流

  • Mamba / VMamba(视觉状态空间模型,速度快)
  • MetaFormer(PoolFormer、ConvFormer)
  • EdgeNeXt
  • MobileSAM 配套轻量分类头

5、最简单直接的选型建议

  • 通用稳定:ResNet50
  • 高精度:EfficientNetB4 / Swin-T
  • 移动端 / 嵌入式:MobileNetV3 / MobileViT
  • 科研 SOTA:ConvNeXt / Swin Transformer
  • 超快推理:RepVGG / MobileOne

检测模型

1、两阶段检测(精度高,速度慢)

  1. Faster R-CNN两阶段标杆:RPN + 检测头
  2. Mask R-CNN检测 + 分割一起做
  3. Cascade R-CNN级联检测框,大幅提升 AP
  4. Libra R-CNN平衡特征,小目标更强

2、单阶段检测(速度快,工程首选)

Anchor-based
  1. SSD多尺度检测经典
  2. RetinaNet 解决正负样本不平衡,精度很高
  3. YOLOv3 / YOLOv4工业界曾经的王者
Anchor-free
  1. FCOS全卷积 anchor-free,稳定好用
  2. CenterNet基于关键点,简单干净

3、YOLO 全家桶(最主流、最实用)

  • YOLOv5(工程部署最多)
  • YOLOv6(美团,速度精度均衡)
  • YOLOv7
  • YOLOv8(目前最通用、最易用)
  • YOLOv9
  • YOLOv10(极致速度)
  • YOLOv11(最新 SOTA)
  • YOLO-World(开放词汇检测)

4、Transformer 检测(SOTA 精度)

  1. DETR端到端检测,去掉 NMS
  2. Deformable DETR可变形注意力,速度快很多
  3. DINO目前 DETR 系列最强
  4. Swin Transformer + 检测头通用强基线

5、轻量化检测(边缘 / 嵌入式 / 量化)

  • YOLOv8-n/s/m
  • MobileNet-SSD
  • MobileDets
  • PP-YOLOE(百度飞桨轻量)
  • YOLO-Pose(姿态 + 检测轻量)

6、3D / BEV 检测(自动驾驶)

  • BEVDet
  • BEVFormer
  • DETR3D
  • FCOS3D
  • CenterPoint(激光雷达)

7、最简单直接选型(直接照抄)

  • 通用项目、快速落地:YOLOv8 / YOLOv11
  • 高精度、不计速度:Cascade R-CNN / DINO
  • 边缘端、量化部署:YOLOv8-n/s / MobileDets
  • 自动驾驶、BEV:BEVFormer / BEVDet
  • 激光雷达 3D 检测:CenterPoint

分割模型:

语义分割 / 实例分割 / 全景分割 / 轻量分割 / 3D/BEV 分割分。

1、语义分割(Semantic Segmentation)

给每个像素分类别(道路、人、车、天空等)

  1. FCN分割开山之作
  2. **U-Net / U-Net++**医学影像、小数据必备
  3. **DeepLabv3 / DeepLabv3+**空洞卷积 + ASPP,精度高、稳定
  4. PSPNet金字塔池化,场景理解强
  5. SegFormerTransformer 轻量化,又快又准
  6. SegNext精度超 SegFormer,更好训
  7. HRNet高分辨率保持,细节强

2、实例分割(Instance Segmentation)

把每个物体单独抠出来(每个人、每辆车)

  1. Mask R-CNN经典、通用、稳定
  2. SOLO / SOLOv2速度快,anchor-free
  3. CondInst动态卷积,实例分割轻量化
  4. **YOLACT / YOLACT++**实时实例分割

3、全景分割(Panoptic Segmentation)

语义 + 实例一起做(东西 + Stuff)

  1. Panoptic FPN
  2. Mask2Former一个模型搞定分割全任务,SOTA
  3. OneFormer通用大一统分割

4、实时 / 轻量分割(边缘、量化、移动端)

  1. BiSeNet / BiSeNetV2超实时,城市道路分割
  2. MobileSeg
  3. MobileOne-Seg
  4. PP-LiteSeg(百度飞桨)
  5. YOLOv8-seg工程最方便,开箱即用

5、自动驾驶 / BEV 分割

  1. BEVSeg
  2. BEVFormer + 分割头
  3. Occ-BEV(占用网格)
  4. SurroundOcc
  5. SimpleOccupancy

6、直接给你最强选型(照抄就行)

  • 医学影像:U-Net++
  • 通用语义分割:SegFormer / SegNext
  • 工程快速落地:YOLOv8-seg
  • 自动驾驶道路分割:BiSeNetV2 / DeepLabv3+
  • 全景 / 多任务一体:Mask2Former
  • 边缘端 + 量化:MobileSeg / BiSeNetV2
  • BEV / 占用预测:BEVFormer / Occ-BEV

disparity /depth 预测

深度估计模型,分双目视差(disparity)单目深度(depth)实时 / 轻量 / 可量化三类

1、双目视差 Disparity 模型(输出 disparity)

这类模型专门做双目匹配 → 视差图 ,最适合 disparity_pred

  1. GC-Net早期经典 3D 卷积视差估计
  2. PSMNet 金字塔 + 空间池化,高精度标杆
  3. GA-Net引导聚合,精度更高
  4. GwcNet分组相关卷积,比 PSM 更快更准
  5. CFNet相关场滤波,实时性好
  6. RAF-Stereo迭代 refine,精度 SOTA
  7. StereoNet轻量双目,适合边缘部署
  8. AnyNet任意分辨率 / 实时双目
  9. MobileStereoNet移动端轻量化视差模型

2、单目深度估计模型(输出 depth map)

不做 disparity,直接输出深度值,但很多结构可改输出视差。

  1. Monodepth / Monodepth2自监督单目深度,最经典
  2. **DPT (Depth Prediction Transformer)**ViT + 深度预测,精度很高
  3. AdaBins分箱预测深度,SOTA
  4. DepthAnything 超强通用单目深度,工业实用
  5. Metric3D可输出米级绝对深度
  6. GLPN轻量 Transformer 深度模型

3、实时 / 轻量 / 可量化模型(适合 OpenExplorer 量化)

适合INT8 量化、BPU / 嵌入式部署

  • StereoNet
  • MobileStereoNet
  • AnyNet
  • CFNet
  • Lite-Mono
  • MobileDepth

4、最优路线

  • 高精度:PSMNet / GwcNet / RAF-Stereo
  • 工程 / 量化友好:StereoNet / MobileStereoNet
  • 最简单快速:AnyNet

multitask多任务模型

1、通用多任务架构(Backbone + 多任务头)

最常见:一个主干,多个检测 / 分割 / 深度 / 分类头。

  1. Multi-task CNN(ResNet + 多分支)
  2. HRNet + Multi-head(高分辨率,适合分割 + 关键点)
  3. ResNet / ResNeXt + 多任务头
  4. Swin Transformer + Multi-task Heads

2、自动驾驶 / BEV 多任务(最常用)

  1. BEVFormer检测 + 分割 + 轨迹 + 占用 一网络搞定
  2. BEVDet3D 检测 + 语义分割
  3. BEVFusion多模态 + 多任务统一
  4. UniAD端到端:感知→预测→规划
  5. Occ-BEV3D 检测 + 占用网格 + 语义
  6. PETR / PETRv2BEV 多任务、时序融合

3、2D 视觉多任务(检测 + 分割 + 深度 + 关键点)

  1. Mask R-CNN检测 + 实例分割
  2. Panoptic FPN全景分割(语义 + 实例)
  3. YOLOv8/YOLOv11 multi-task检测 + 分割 + 姿态 + 分类
  4. OneFormer / Mask2Former大一统分割(语义 / 实例 / 全景)
  5. MTI-Net检测 + 深度 + 分割
  6. DPT-MultiTaskTransformer 多任务深度 + 分割

4、轻量多任务(适合量化、边缘、OpenExplorer)

  1. BiSeNet + 多任务头
  2. MobileNet + Multi-task
  3. MobileViT + 多分支
  4. PP-YOLOE + 多任务
  5. YOLO-Pose + Seg检测 + 姿态 + 分割

5、多任务训练范式(决定你怎么训)

  1. Hard Parameter Sharing主干共享,分支独立(最常用、最快)
  2. Soft Parameter Sharing各任务有独立 backbone,互相正则
  3. Attention-based FusionBEVFormer、Mask2Former 这种
  4. Multi-scale Feature FusionFPN、PAN 结构

6、最强落地选型(照抄)

  • 自动驾驶 BEV 多任务:BEVFormer / BEVFusion
  • 2D 检测 + 分割 + 姿态:YOLOv8 / YOLOv11 multi-task
  • 高精度分割全家桶:Mask2Former / OneFormer
  • 边缘 / 量化 / 低算力:MobileNet + 多任务头 / BiSeNet
  • 端到端智驾:UniAD

**多个个任务一起做,**比如:

  • 检测 + 分割
  • 检测 + 深度视差(disparity)
  • BEV 3D 检测 + 语义分割

opticalflow光流模型

1、深度学习光流模型(最常用)

1). 经典高精度
  • FlowNet / FlowNet2光流深度学习开山,精度一般,速度慢。
  • PWC-Net 金字塔 + 代价体积,轻量化、精度高、工业最常用
  • RAFT 迭代优化,目前精度天花板,非常稳。
  • GMA基于 RAFT 加注意力,精度更高。
  • GMFlow全局匹配 + Transformer,精度接近 RAFT,速度更快。
2). 实时 / 高速光流
  • LiteFlowNet轻量 PWC-Net,速度快。
  • FastFlowNet实时高精度,适合嵌入式。
  • CSR-Flow上下文空间精炼,速度快。
  • ROF实时光流,边缘部署友好。
3). 2025--2026 最新 SOTA
  • GMFlow++
  • MatchFlow
  • UniMatch
  • RAFT-Stereo(也能做光流)

2、传统光流算法(不用训练,直接跑)

  • Lucas--Kanade(LK 光流)
  • Horn--Schunck
  • Farnebäck
  • SIFT Flow

工程上一般只用来做对比 / 初始化,精度远不如深度学习。


3、适合 OpenExplorer 量化、嵌入式部署

最推荐 3 个:

  1. PWC-Net 结构干净、卷积为主、INT8 量化极其友好
  2. LiteFlowNet超轻量,速度快
  3. FastFlowNet实时性强,车规可用

RAFT/GMA 因为有循环 / 迭代,量化难度高,不太适合 BPU。


4、最简单直接选型

  • 精度最高RAFT / GMFlow
  • 工程落地 + 量化PWC-Net
  • 实时嵌入式LiteFlowNet / FastFlowNet
  • 自动驾驶 / BEV 时序PWC-Net 或 GMFlow

Track追踪模型

单目标 / 多目标 / 2D / 3D / BEV 跟踪,直接给你能选的那种。

1、单目标追踪 SOT(Single Object Tracking)

给初始框,一直跟着它

  1. SiamFC孪生网络,早期经典
  2. **SiamRPN / SiamRPN++**精度高、速度快
  3. DaSiamRPN防遮挡更强
  4. Ocean / Ocean++
  5. TransTTransformer 跟踪
  6. StarkTransformer 高精度跟踪

2、多目标追踪 MOT(Multi-Object Tracking)

同时跟踪多人 / 多车,最常用在自动驾驶、安防

1). 传统关联(检测 + 卡尔曼 + 匈牙利)
  1. SORT
  2. DeepSORT(最经典、工业最常用)
  3. StrongSORT
2). 基于外观特征
  1. FastReID(行人 / 车辆重识别)
  2. OSNet(轻量 ReID)
3). 端到端 MOT(Joint Detect + Track)
  1. JDE
  2. FairMOT工业首选,又快又稳
  3. CenterTrack
  4. TraDeS
  5. TransTrack
  6. ByteTrack精度极高、现在最火
  7. BotSort(比 ByteTrack 更强)

3、2D 检测 + 跟踪一体化(工程落地最强)

  1. YOLOv5 + DeepSORT
  2. YOLOv8 + ByteTrack / BotSort目前最通用
  3. YOLOv11 + Track
  4. YOLO-Track 系列

4、3D 追踪 / 自动驾驶 Tracking

  1. AB3D
  2. PTTA
  3. LTR
  4. SimpleTrack(3D 快速跟踪)
  5. CenterPoint + Track(激光雷达 3D 追踪)

5、BEV 跟踪(时序多目标追踪)

  1. BEV-Track
  2. BEVFormerTrack
  3. PETR-Track
  4. StreamPETR
  5. MOT-BEV
  6. MapTR + Track(在线建图 + 跟踪)

6、适合 OpenExplorer 量化、嵌入式部署

这些结构干净、无复杂循环、好转 ONNX、好量化 INT8

  • DeepSORT
  • ByteTrack
  • FairMOT
  • YOLOv8/v11 Track
  • FastReID、OSNet

7、 最强选型(照抄就行)

  • 通用 2D 多目标:ByteTrack / BotSort
  • 工程最快落地:YOLOv8 + ByteTrack
  • 嵌入式 / 量化:DeepSORT + YOLOv8-n/s
  • 自动驾驶 3D/BEV:BEVFormerTrack / PETR-Track
  • 轻量 ReID:OSNet、FastReID

SLAM/VSLAM定位导航模型

1、经典开源 SLAM(最常用、资料最多)

1). 视觉 SLAM(VSLAM)
  • ORB-SLAM2 / ORB-SLAM3最经典、最稳、工程落地最多。

    • 支持单目、双目、RGB-D
    • ORB-SLAM3 支持视觉 + IMU 紧耦合
    • 适合:扫地机、AGV、无人机、嵌入式开发板
  • SVO / SVO2半直接法,速度极快,弱纹理也能跑。

    • 适合:高速无人机、嵌入式实时场景
  • DSO / LDSO直接法,精度高、对光照鲁棒。

    • 适合:科研、高精度场景
  • VINS-Mono / VINS-Fusion视觉 + IMU 紧耦合,非常稳。

    • 自动驾驶、机器人、无人机常用
  • RTAB-Map 闭环很强,适合大场景、长时间建图。

    • 适合:服务机器人、室内大场景建图
2). 激光 SLAM(LiDAR SLAM)
  • LOAM / LeGO-LOAM激光经典框架,精度高、实时性强。

  • A-LOAMLOAM 的优化开源版,易编译、易跑通。

  • LIO-SAM / LIO-SAM-LITE 激光 + IMU 紧耦合,目前落地非常多。

    • 自动驾驶、机器人、室外导航首选之一
  • FAST-LIO2超快、超稳、支持大场景。

    • 工业机器人、自动驾驶、无人机都爱用
3). 多传感器融合 SLAM(现在主流)
  • LVI-SAM:激光 + 视觉 + IMU 融合
  • VINS-Fusion:视觉 + IMU + GPS / 激光
  • ORB-SLAM3 + IMU + LiDAR:多模融合

2、深度学习 / 神经网络 SLAM

  • DeepVO
  • VO Transformer
  • NeRF-SLAM(语义 + 重建)
  • SLAM++ 这类精度高,但算力要求大,嵌入式一般不太跑。

3、极简选型建议

  • 只有摄像头 → ORB-SLAM3 / VINS-Mono
  • 摄像头 + IMU → ORB-SLAM3 / VINS-Fusion
  • 激光雷达 → A-LOAM / FAST-LIO2
  • 大场景、要稳、要闭环 → RTAB-Map
  • 自动驾驶 / 机器人融合 → LIO-SAM / LVI-SAM
相关推荐
skywalk81631 小时前
在LMStudio中使用microsoft_Fara-7B 模型(未实践)
人工智能·microsoft
cxr8281 小时前
创建专业虚拟一人公司的 Skills 深度对比分析
人工智能·ai智能体·openclaw
未来之窗软件服务2 小时前
vosk-ASR python调用[AI人工智能(五十一)]—东方仙盟
人工智能·vosk·仙盟创梦ide·东方仙盟
AI浩2 小时前
小目标检测:微小目标的精准感知调研
人工智能·目标检测·计算机视觉
工业机器视觉设计和实现2 小时前
人工智能的革命范式(对称美)
人工智能·cudnn微积分
trsoliu2 小时前
本地 AI Agent Memory 系统建设方案
人工智能
月落三千雪2 小时前
使用AI智能体搭建知识库-RAG语义检索
人工智能
汀沿河2 小时前
2 模型预训练、微调、强化学习的格式
人工智能·算法·机器学习
灵机一物2 小时前
灵机一物AI智能电商小程序(已上线)-产品化架构与全场景功能解析
人工智能