大语言模型 因其强大而通用的语言生成、理解能力,展现出了成为通用智能体的潜力。与此同时,在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此,大语言模型如何适配开放世界是一个重要的研究问题。
北京大学 和北京智源人工智能研究院的团队针对这个问题提出了 LLaMA-Rider,该方法赋予了大模型在开放世界中探索任务、收集数据、学习策略的能力,助力智能体在《我的世界》(Minecraft)中自主探索获取知识并学习解决各种任务,提升智能体自主能力和通用性。
自主探索开放世
1、环境反馈驱动的探索与学习
LLaMA-Rider 着眼于让大语言模型 (LLM) 适应环境从而提高在环境中解决多任务的能力。LLM 在预训练阶段获得的知识与实际环境很可能存在不一致,这常常导致决策错误。为了解决这个问题,现有的方法有些利用提示工程,通过和 LLM 频繁交互让其获取环境信息,不过并不更新 LLM;有些使用强化学习在线微调 LLM,不过其计算代价高且难以扩展到多任务和复杂任务。
LLaMA-Rider 对此提出了新的思路。它首先利用环境的反馈信息,靠 LLM 自身的能力在环境中探索,收集成功经验。之后,LLaMA-Rider 将经验整合成监督数据集进行学习,更新自身的知识。这样一个两阶段的训练框架让 LLaMA-Rider 能够在 Minecraft 环境中的 30 个任务上取得超过 ChatGPT 任务规划器的平均表现,并展现出对新任务的泛化能力。
在探索阶段,LLaMA-Rider 利用反馈 - 修改机制来进行主动探索。在每个时间步上,LLaMA-Rider 接收文本化的环境信息和任务信息,并给出下一步的决策。由于与环境的知识差距,该决策可能无法在环境中执行并触发环境的反馈信息,而该反馈信息会再次输入给 LLaMA-Rider,引导其修改决策。凭借 LLM 自身的上下文理解能力和环境反馈信息,LLaMA-Rider 可高效探索开放世界。
为了将 LLM 的文本输出匹配到环境的动作空间,LLaMA-Rider 使用了一组预训练的技能作为技能库,并使用技能检索模块将 LLM 的输出文本和技能库中的技能描述进行匹配,检索最接近的技能。由于技能描述和环境中的动作相比具有更多的语义,这种方式可以更大程度利用 LLM 的能力。
此外,LLaMA-Rider 使用了子任务重标记的方法,在探索过程中用当前正在完成的子任务信息替换输入中的原始任务信息,让 LLM 在探索过程中能关注当下的子目标,提高任务成功率。
在学习阶段,探索时收集到的经验将会整合成监督数据集,用以对 LLM 进行监督微调 (SFT)。数据集中同样采用子任务重标记的方法让 LLaMA-Rider 学习到任务之间的子任务组合性,提高策略的泛化能力。
2、实验效果
LLaMA-Rider 使用的大语言模型 为近期推出的 LLaMA-2-70B-chat。在 Minecraft 的三类共 30 个任务中,LLaMA-Rider 的表现超过了基于 ChatGPT 的任务规划器,并且经过学习后的 LLaMA-Rider 所能完成的任务数量也超过了它在探索阶段能成功的数量,展现出 LLaMA-Rider 对于开放世界中持续学习和多任务解决的能力。
与强化学习 (RL) 方法相比,LLaMA-Rider 则展现出了高采样效率和低训练代价的优势。即使在难度较简单、完成步数较短的木材相关任务上,RL 方法也难以取得训练成效,表明强化学习的训练方法难以扩展到大动作空间以及复杂的场景中。而 LLaMA-Rider 在探索阶段只采用了 5-10 次的任务探索便完成数据收集,在学习阶段也只在包含 1.3k 样本量的数据集上进行训练就取得了效果提升。
作者进而发现,在对上述的 30 个任务进行探索学习后,LLaMA-Rider 在测试时对于学习过程中未探索过的更困难的铁矿相关任务,也能取得效果的提升。这进一步体现了 LLaMA-Rider 学习到的决策能力的泛化性。
在消融实验中,作者利用包含更多子任务的石头相关任务,验证了子任务重标记的方法对于任务成功率和任务泛化能力的关键作用。
除此之外,尽管 LLaMA-Rider 只学习了任务决策相关的数据,当作者使用任务相关的问题进行提问时,LLaMA-Rider 也给出了更准确的回答,表明它在训练过程中同样学习到了环境知识,证明 LLaMA-Rider 起到了与环境知识对齐的作用。
3、总结
作者提出了 LLaMA-Rider 的大语言模型 训练框架,让大语言模型 根据环境反馈结合自身能力自主探索开放世界,并根据收集到的经验完成高效学习,在 Minecraft 环境中取得了比包括 ChatGPT 任务规划 器在内的其他方法更好的解决多任务的能力,让大语言模型获得了对开放世界的适应性。此外,LLaMA-Rider 能利用过去任务的经验解决新任务的泛化能力表明了该方法应用于大模型终身探索学习的前景。