自动驾驶感知范式迁移:从BEV/向量化到高斯建模

从BEV到向量化到高斯建模

  • [1 基于信息提炼/压缩的方法](#1 基于信息提炼/压缩的方法)
    • [1.1 BEV方案](#1.1 BEV方案)
    • [1.2 向量化方案](#1.2 向量化方案)
  • [2 基于重建/拟合的方法](#2 基于重建/拟合的方法)

1 基于信息提炼/压缩的方法

1.1 BEV方案

  • 核心思想: 建立一个统一的、上帝视角的二维网格(BEV Grid),作为多传感器信息和下游任务的"中央总线"。

  • 信息处理方式:

    • 提炼 (Distill): 使用图像编码器(如ResNet, ViT)从多视角2D图像中提取出大量的特征,这就像从原材料中"榨取"精华。
    • 转换与填充 (Transform & Fill): 通过一个精巧的"视图转换"模块(View Transformer),将这些2D特征"投射"并"填充"到预先定义好的BEV网格的每一个单元格中。这个过程就像是把榨好的果汁,小心翼翼地倒入一个有固定格子形状的冰格模具里。
  • 本质: 最终的BEV特征图是一个对世界的高度抽象和总结。关心在哪个BEV格子里应该填入什么样的特征值。信息被"提炼"并被"格式化"到了这个BEV网格里。

  • 代表方案:BEVFormer,UniAD

1.2 向量化方案

  • 核心思想: 不再试图填充一个完整的网格,而是使用一组可学习的、稀疏的"查询向量"(Object Queries)作为"探针",主动去图像中寻找并"提炼"与特定物体相关的信息。

  • 信息处理方式:

    • 初始化探针: 随机初始化一组(例如100个)查询向量。每个向量可以看作是一个"我想找到一个物体"的意图。
    • 提炼与查询 (Distill & Query): 这些查询向量通过交叉注意力机制(Cross-Attention)与图像特征进行交互。它们学习如何定位到图像中的特定区域(比如车辆、行人),并从这些区域中"吸取"和"提炼"出有用的信息(位置、类别、朝向等)。这就像是派出100个训练有素的侦察兵,让他们去战场(图像特征)上各自寻找目标并带回情报。
  • 本质: 这是一种更有针对性的提炼。它同样不关心重建整个世界,而是只提炼出"我感兴趣的N个物体"的信息。最终得到的是一组包含了物体信息的向量,而不是一个完整的场景地图。

  • 代表方案:DETR3D,PETR

2 基于重建/拟合的方法

  • 核心思想: 不去抽象信息,而是尝试用一组带有丰富属性的、可微的、显式的3D基元(即3D高斯体)去直接模拟和重建整个三维世界。

  • 信息处理方式:

    • 初始化基元: 在3D空间中"撒"上一批初始的3D高斯体。它们一开始可能杂乱无章。
    • 迭代拟合 (Iterative Fitting): 这是核心。模型进入一个优化循环:
    • 渲染: 将当前的3D高斯体集合通过可微渲染器,"画"出从各个相机角度看到的2D图像。
    • 比较: 将渲染出的图像与真实的输入图像进行比较,计算它们之间的差异(例如L1损失、SSIM损失)。
    • 优化/调整: 根据这个差异,反向传播梯度,去微调每一个3D高斯体的所有参数(位置、形状、旋转、颜色、不透明度、语义特征等),目标是让渲染出来的图像与真实图像无限接近。
  • 本质: 这个过程就像一个艺术家在用无数个可塑形的、可变色的"智能粘土球"(高斯体)来雕刻一个与现实一模一样的模型。艺术家不断地对照着真实场景(输入图像),调整每一个粘土球的位置、形状和颜色,直到他的雕塑在任何角度看都跟真的一样。这个过程就是拟合------用模型(高斯体集合)去逼近真实数据(图像)。

相关推荐
龙山云仓14 分钟前
小G&老D求解:第7日·立夏·蝼蝈鸣
人工智能·机器学习
LaughingZhu25 分钟前
Product Hunt 每日热榜 | 2026-04-30
人工智能·经验分享·深度学习·神经网络·产品运营
sunneo31 分钟前
专栏D-团队与组织-03-产品文化
人工智能·产品运营·aigc·产品经理·ai编程
Muyuan199831 分钟前
28.Paper RAG Agent 开发记录:修复 LLM Rerank 的解析、Fallback 与可验证性
linux·人工智能·windows·python·django·fastapi
AI科技星36 分钟前
精细结构常数α作为SI 7大基本量纲统一耦合常数的量子几何涌现理论
算法·机器学习·数学建模·数据挖掘·量子计算
小呆呆66644 分钟前
Codex 穷鬼大救星
前端·人工智能·后端
薛定猫AI1 小时前
【深度解析】Kimi K2.6 的长上下文 Agentic Coding 能力与 OpenAI 兼容 API 接入实践
人工智能·自动化·知识图谱
星爷AG I1 小时前
20-6 记忆整合(AGI基础理论)
人工智能·agi
AI创界者1 小时前
人工智能 GPT-Image DMXAPI Python AI绘画
人工智能
哥布林学者1 小时前
深度学习进阶(十六) 混合注意力 CBAM
机器学习·ai