LINGO-1 - 自动驾驶的视觉语言动作模型

【LINGO-1：将自然语言应用于无人驾驶增强学习和可解释性】

"链式思维"自动驾驶------自动驾驶系统能够"大声思考"并用文字表述出来！

LINGO-1是我最近一段时间读到的关于自动驾驶领域最有趣的研究。

以前的模式是：感知 -> 驾驶行动

现在的模式是：感知 -> 文本推理 -> 行动

LINGO-1通过训练一个视频-语言模型来对正在进行的场景评论。你可以让它解释自己的决策和计划（例如："你为什么停下来？"、"你接下来打算做什么？"）。

明确的推理步骤带来了几个关键的优势：

可解释性：驾驶模型不再是一个神秘的黑箱，你对其安全性一无所知。
反事实情景：它能够想象训练数据中没有的场景，并通过推理来正确处理这些场景。
长尾编程：驾驶中有太多的边缘场景。对所有场景进行良好的数据覆盖是不可能的。现在，你不再需要收集成千上万的数据案例来"神经编程"某一个案例，而是可以通过编写简短的文本提示（prompts），由人类专家解释和指导系统如何处理某些特定或复杂的情景。

LINGO-1与游戏AI领域的一些研究密切相关：

MineDojo : https://minedojo.org
学习一个奖励模型，将我的世界（Minecraft）的游戏视频与它们的文字记录对齐。
这种模型，叫做"MineCLIP"，能够将评论文本与视频像素关联起来。
思维克隆（由Jeff Clune提出）：在像素世界中实现像素 -> 语言 -> 行动的循环。

2023-10-07

LINGO-1 - 自动驾驶的 视觉语言动作模型