VLM (1): VLM 一般知识点总结 + VLM重点梳理我们可以看到有如下关系 LLM: text tokens → text tokens VLM: image tokens + text tokens → text tokens VLA: image tokens + text tokens + robot state/history → action tokens / continuous actions 笔者 在 看 很多vla 的 论文时, 看到 VLM 是 很多 机器人和自驾的核心. 所以 接下来会深入vlm 进行学习