JARVIS-1: 基于记忆增强多模态语言模型的开放世界多任务智能体

1. 论文核心概念

JARVIS-1 的核心洞察是通过将多模态感知、大型语言模型（LLM）的推理与规划能力、以及一个存储具体经验的多模态记忆系统相结合，可以构建一个能够在像 Minecraft 这样的复杂开放世界中执行多种多样、尤其是长视野（long-horizon）任务的通用智能体。它不再仅仅将 LLM 视为一个静态的、仅依赖预训练知识的规划器，而是让其能够通过与环境的交互进行"终身学习"，利用过去的成功和失败经验来持续优化未来的决策，从而解决开放世界智能体面临的三大核心挑战是情境感知规划、高任务复杂度和终身学习。

2. 论文内名词解释

开放世界（Open-world） 是指一个内容丰富、动态变化、任务边界不固定且存在大量不确定性的环境。在本文中特指 Minecraft 游戏，其拥有近乎无限的地图、多样的生物群系、复杂的合成配方和交互规则。

多模态语言模型（Multimodal Language Model, MLM）是在本文中，JARVIS-1 的"MLM"并非指一个单一的端到端模型，而是指一个系统，它通过串联一个视觉编码器（MineCLIP）和一个大型语言模型来共同处理视觉、文本和符号信息，使其具备了理解和生成基于多模态输入的计划的能力。

多模态记忆（Multimodal Memory） 是一个存储智能体过去成功经验的数据库。每条记忆都是一个"键-值"对。

键（Key）是是多模态的，包括任务指令 和产生该计划时的情境（State）。情境又包括视觉观察的文本描述和符号信息（物品栏、位置等）。

值（Value）是是该情境下成功执行的计划（Plan）。

检索增强生成（Retrieval-Augmented Generation, RAG） 是一种技术范式，通过在生成响应时从外部知识库中检索相关信息来增强大型语言模型的能力。在 JARVIS-1 中，这个"外部知识库"就是其多模态记忆，检索到的过去成功经验被用作提示词的一部分，使 LLM 能生成更准确、更情境化的计划。

情境感知规划（Situation-Aware Planning） 是指规划器在生成计划时，不仅仅考虑最终的任务目标，还会充分考虑智能体当前的实时状态，包括所在位置、拥有的物品、时间、天气等，从而生成一个在当下最可行、最高效的行动序列。

自我检查（Self-Check） 是在计划执行之前，让 LLM 模拟执行计划的每一步，预测每一步之后的库存状态，并检查计划中是否存在逻辑错误或前提条件缺失。这是一种前瞻性的错误检测机制。

自我解释（Self-Explain） 是当计划在执行过程中失败时，将错误信息和当前状态反馈给 LLM，让其分析失败的原因（，并据此解释错误和重新规划。

自我指令（Self-Instruct） 是让智能体自己为自己提出新的任务目标，作为一种探索环境的机制。这允许智能体在没有人类指令的情况下，主动地去尝试获取新物品、探索新区域，从而自动地扩展其多模态记忆中的经验。

终身学习（Life-long Learning） 是指智能体在整个生命周期（在整个游戏过程中）持续学习的能力。JARVIS-1 通过不断将新经验存入记忆库来实现终身学习，后续任务可以通过检索这些新经验来获得更好的性能，而无需对模型本身进行梯度更新（即参数不变）。

3. 论文方法

3.1 过去方法的问题

缺乏真正的情境感知是许多基于LLM的规划器只在任务开始时生成一个静态计划，无法根据环境的变化（进行动态调整，导致计划失败。

难以处理长视野任务是像"获得钻石镐"这样的任务需要几十个精确排序的子步骤。LLM 会产生幻觉（Hallucination），遗漏或弄错步骤，且错误会不断累积。

无法从经验中学习是传统方法将 LLM 视为一个固定的知识库。每次任务都是"从零开始"，无法记住过去的成功或失败，导致智能体会在同一个地方反复犯错，效率低下。

依赖特权信息或人类干预是一些方法需要环境提供代码式的特权信息（物体ID、精确坐标）或在失败时需要人类反馈来修正，这在实际应用中不现实。

3.2 整体框架

JARVIS-1 是一个模块化系统，核心流程如下

1. 输入与感知

输入是当前帧图像，任务指令，符号状态（包括库存、位置、生物群系等）。

视觉转文本 是使用 MineCLIP 模型处理图像，将其与一个预定义的 Minecraft 概念文本库计算相似度，提取出最高相似度的关键词列表。然后将发送给 GPT，让其生成一句自然语言视觉描述。

符号状态转文本是使用预定义模板将符号状态转化为文本描述。

当前情境表述是将当前情境的完整文本描述。

2. 记忆检索与查询生成是

查询生成是为了从内存中检索相关经验，需要生成一个查询。系统将任务指令发送给 GPT，让其以逆向链式推理（Backward Chaining）的方式分解出关键子目标。

多模态检索是对于每个子目标，将其与当前视觉观察结合，形成一个多模态查询。在记忆库中是

首先，使用 CLIP 的文本编码器计算与内存中所有条目的任务键（文本部分）的相似度，筛选出Top-N个候选条目。

然后，使用 CLIP 的图像编码器计算当前图像与候选条目存储的视觉键（图像部分）的相似度。

最终，为每个 $q_i$ 检索出相似度最高的内存条目。所有的计划被组合成参考计划。

3. 交互式规划是

初始计划生成是将任务指令、当前情境和参考计划组合成一个提示（Prompt），发送给 GPT 规划器，生成一个初始行动计划。

自我检查（Self-Check） 是将原始计划和当前库存状态再次输入给 GPT，要求其逐步模拟执行计划，并验证每一步的可行性。如果发现错误，GPT 会输出修正后的计划。

计划执行与自我解释（Self-Explain） 是控制器开始执行计划。如果某个目标执行失败，环境会返回错误反馈。将 erro(第几个错误和值) 和当前库存状态输入给 GPT，要求其解释失败原因并提出修正方案。根据解释，规划器会生成一个新的、修正后的计划，并从失败点继续执行。

4. 记忆存储与自我提升是

记忆存储 是如果一个任务被成功完成，整个轨迹（任务 , 计划开始时的情境状态, 最终成功的计划会被作为一个新的条目存储到多模态记忆库中。

自我指令（Self-Instruct） 是在空闲或需要探索时，系统会提示 GPT，根据智能体的当前能力和记忆库中的内容，自动生成一系列新的探索性任务。智能体会尝试完成这些任务，无论成功与否，其经验都会用于更新记忆库，从而实现自我驱动的提升。

分布式探索 是多个 JARVIS-1 智能体副本可以在不同的 Minecraft 世界实例中并行运行，共享一个中央记忆库，极大地加速了经验积累的过程。

3.3 核心难点解析

如何让"文本模型"看到"画面"？ 这是最大的难点。JARVIS-1 没有强行训练一个端到端的视觉-语言模型，而是巧妙地"翻译"。用专门为 Minecraft 训练的 MineCLIP 充当"眼睛"，将图像变成关键词；再用强大的 GPT 充当"大脑"，将关键词组织成语言模型能理解的情境描述。这是一种务实且高效的组合策略。

记忆检索为什么既要文本又要视觉？ 纯文本检索会找回不相关的计划。

自我检查 vs 自我解释？ 两者都是纠错，但时机和目的不同。

自我检查是"事前诸葛亮"，在行动前在脑子里推演一遍计划，避免明显的逻辑错误。

自我解释是"事后诸葛亮"，在行动失败后分析原因，从错误中学习。两者结合形成了一个完整的"规划-执行-反思"闭环。

4. 实验结果与分析

4.1 实验设置

环境是Minecraft 1.16.5 生存模式，使用类似人类的界面（20FPS，鼠标键盘控制）。

数据集/任务 是Minecraft Universe Benchmark (MCU) 中的 200+ 个任务，分为11个组（Wood, Stone, Iron, Gold, Diamond, Redstone, Blocks, Armor, Decoration, Food）。任务难度从简单的"捡木棍"到极难的"获得钻石镐"。

评估指标 是任务成功率。每个任务在至少30个不同的世界种子（seeds）上测试，计算平均成功率。

对比方法是

GPT是仅使用GPT在任务开始时生成一次性计划。

ReAct是在行动前进行推理的LLM智能体。

Inner Monologue是将环境反馈（成功检测、场景描述）纳入规划的LLM智能体。

DEPS是使用LLM进行交互式长视野规划的先进方法。

JARVIS-1配置是 Planner是主要使用 GPT-4。Controller是基于 Steve-1。Visual Encoder是 MineCLIP。

4.2 实验结果

总体性能领先 是如表2所示，JARVIS-1 在全部11个任务组上均取得了最高的平均成功率。在简单任务（Wood, Stone）上接近完美，在极难任务（Diamond）上成功率（8.99%）是对比方法中最好的DEPS（2.42%）的3.7倍。

长视野任务优势巨大 是在"ObtainDiamondPickaxe"任务上，JARVIS-1 的成功率达到 6.22% （20分钟）和 12.5%（60分钟），远超之前最先进的VPT+RL方法（2.5%）和DEPS。这证明了其方法在复杂任务上的有效性。

记忆与多模态检索的有效性是消融实验（图8）表明是

"Text Memory + Reasoning" 优于 "Text Memory"，说明推理辅助检索很重要。

"Multimodal Memory + Reasoning" 优于纯文本方法，证明了引入视觉信息进行检索的必要性。

终身学习能力是如图7所示，随着记忆库容量（经验）的增加，JARVIS-1 完成所有关键物品的成功率都在持续提升，证明了其通过经验进行自我改进的能力。

计算效率是JARVIS-1 通常只需2-3轮重新规划就能生成正确计划，而DEPS需要6轮以上，节省了LLM的token消耗和思考时间。

5. 结论

5.1 论文的贡献

提出了一个新颖的框架是首次将多模态感知、LLM推理、交互式规划和多模态记忆系统地整合到一个智能体中，用于解决开放世界问题。

实现了实用的情境感知是通过"多模态转文本"的巧妙设计，让LLM能够基于真实环境状态进行动态规划。

引入了经验驱动的终身学习是通过多模态记忆和Self-Instruct机制，智能体可以不依赖梯度更新而持续进步，为构建真正自主的智能体指明了方向。

设立了新的技术标杆是在复杂的Minecraft环境中，尤其是在长视野任务上，取得了突破性的性能提升，成为了该领域的新State-of-the-Art。

5.2 论文的限制

控制器性能瓶颈是论文指出，失败有时源于底层控制器无法完美执行LLM生成的高级文本指令。规划得再好，执行不了也是徒劳。

依赖外部大模型是其核心（GPT、MineCLIP）是外部API或预训练模型，这导致成本高昂、延迟高、且可复现性受制于这些模型的访问权限。

计算和存储开销是大规模的多模态记忆库的检索和存储需要一定的计算资源。

领域局限性是虽然框架是通用的，但当前实现严重依赖于为Minecraft定制的组件，迁移到新领域需要大量的适配工作。

5.3 未来的方向

提升控制器能力是未来工作可以聚焦于如何让LLM生成更易于执行的控制指令，或者训练一个更强大的、能理解复杂指令的控制器。

开发开源替代品是训练开源的、性能强大的多模态基础模型来替代GPT和MineCLIP，以降低成本和增加可复现性。

优化记忆系统是研究更高效的内存索引、压缩和检索算法，以处理更大规模的经验数据。

向通用领域拓展是将该框架的应用范围扩展到其他开放世界环境。