1 VLM/VLA/VLN定义
1.VLM,Vison-Language-Model,视觉-语言模型,理解和生成视觉与语言内容,核心能力是建立图像/视频与文本之间的深度语义关联,实现跨模态的理解与生成;
2.VLN,Vision-Language Navigation,视觉-语言导航,在真实3D环境中,根据语言指令导航,核心能力是智能体(机器人)理解自然语言指令,并结合视觉感知,在物理或者仿真环境中做出正确的移动决策,到达目标位置。
3.VLA,Vision-Language-Action Model,视觉-语言-动作模型,根据视觉和语言输入,直接输出可执行的动作,核心能力是将视觉感知和语言理解融合,直接映射出低级或者高级的运动指令,用于控制智能体或者机器人;
| 缩写 | 全称 | 中文 | 核心本质 |
|---|---|---|---|
| VLM | Vision-Language Model | 视觉-语言模型 | 跨模态理解与生成专家。连接图像/视频与语言,实现"看懂并描述"。 |
| VLN | Vision-Language Navigation | 视觉-语言导航 | 3D空间导航专家。根据语言指令,在复杂3D环境中规划并执行移动路径。 |
| VLA | Vision-Language-Action Model | 视觉-语言-动作模型 | 物理世界操作专家。根据语言指令,通过视觉感知来驱动身体(如机械臂)完成物理操作。 |
2 核心联系
它们构成了具身智能发展的三个关键阶梯,层层递进:
-
共同基础 :都建立在深度学习(尤其是Transformer架构) 和大规模跨模态预训练之上。VLM是VLN和VLA通用的"大脑"和感知理解模块。
-
技术栈依赖:
-
VLM 为 VLN/VLA 提供了基础的 视觉-语言对齐能力(例如,知道"红色的杯子"在图像中对应什么)。
-
VLN 可以看作是 VLM 的能力在 3D动态空间推理 和 序列决策 上的延伸。
-
VLA 则是在 VLN 的基础上,进一步增加了 精细的物理交互和动作控制 层。
-
-
共同目标 :最终都服务于让机器能够以自然语言为接口,理解并响应我们所处的视觉物理世界,是通向通用人工智能的关键路径。
3 核心区别
我们可以通过一个 "去厨房倒杯水" 的任务来直观感受三者的不同:
| 维度 | VLM (视觉-语言模型) | VLN (视觉-语言导航) | VLA (视觉-语言-动作模型) |
|---|---|---|---|
| 核心任务 | 理解与生成 (图像描述、问答、检索) | 导航与探索 (在环境中移动到指定位置) | 操作与控制 (对物体执行物理动作) |
| 输入 | 一张图片 + 问题/指令 | 实时3D视觉流(如RGB-D图像) + 导航指令 | 实时视觉流 + 操作指令 |
| 输出 | 文本答案或生成的新图像 | 一系列低级导航动作 (如:"前进1米"、"左转30度"、"停下") | 一系列低级动作指令 (如:机械臂关节角度、抓握器开合指令) |
| 环境 | 静态的、旁观者视角 (2D图片或视频片段) | 动态的、具身体验的 (3D仿真环境或真实世界,可移动) | 可物理交互的 (真实世界或高保真物理仿真,含物体动力学) |
| 在"倒水"任务中的角色 | 识别与描述:看到一张厨房照片,回答"水壶在哪里?" | 寻路:从客厅规划一条避开障碍物的路径,走到厨房的水壶前。 | 操作:伸手稳稳抓住水壶柄,将其拿起,倾斜壶身将水倒入杯子。 |
| 关键能力 | 语义理解、跨模态对齐 | 空间推理、长期规划、探索与回溯 | 精细操作、力控、物理常识、手眼协调 |
| 评价指标 | 文本相似度(BLEU)、答案准确率 | 导航成功率、路径效率(SPL) | 任务完成率、操作精度、安全性 |
简单比喻:
-
VLM 像是一个坐在沙发上看图说话的博物学家,知识渊博,但不动手。
-
VLN 像是一个在陌生城市里拿着地图和指令找路的探险家,能自主移动到达目的地。
-
VLA 像是一个在手术室里根据指令进行精密操作的医生,能对手中的工具和对象进行精细控制。
VLM 提供了理解世界的"眼睛和大脑",VLN 赋予了这个智能体在空间中"移动的双腿",而 VLA 则进一步赋予了它"灵巧的双手"来改变世界。三者共同构成了一个完整具身智能体的核心能力模块。