一、摘要
1.问题/研究背景
LLM具有在多智能体系统中执行复杂调度的能力,并可以协调这些代理以完成需要广泛合作的复杂任务。
但是,目前还没有一个标准的游戏场景和相关的测试指标来评估 LLM 在游戏中的表现以及与人类玩家的合作能力。
2.研究目标/动机
提出MindAgent-----新颖的基础设施用于评估游戏交互中的规划和协调新兴能力
3.研究方法概述
研究方法:
MindAgent(新颖的基础设施)是利用现有的游戏框架来实现
引入CUISINEWORLD一种新的游戏场景和相关基准,可以调度多智能体协作效率并监督多个智能体玩游戏。
通过新的自动度量协作评分CoS进行综合评估
4.结论或意义
希望我们对LLM以及用于通用调度和协调的新基础设施的研究结果能够帮助阐明如何通过学习大型语言语料库来获得这些技能。
二、引言
1.研究领域的背景知识
LLM展示了解决复杂任务的潜力,这些任务:以前被认定是特定领域算法或人类专家独有的。包括:数学推理到回答专业法律、医学问题等
2.当前研究现状及问题
最近一些研究表明使用LLM为机器人和游戏人工智能生成复杂计划的可能性,标志着LLLM作为通才智能代理的一个重要里程碑
3.研究动机或意义
- 与之前的单智能体规划相比多智能体规划的行动空间呈指数增长(相对于智能体的数量)规划者必须同时控制多个代理,避免可能的冲突,并协调它 们完成需要复杂协作的共同目标
- 进一步研究LLM的规划能力:多智能体规划
- MindAgent可以使LLM与多个不同的代理执行复杂的协调和调度
4.提出研究问题或假设
- 为了让LLM能够在多大程度上获得多智能体规划技能,研究者建立一个新的基准:CUISNEWORLD
- 为了将智能体融入到视频游戏中,研究者主要设计了一个基础设施:MINDAGENT,促进LLM多智能体规划的能力
5.MindAgent观察结果
- 零样本多智能体规划:无需附加功能,像 GPT-с 这样强 大的预训练 LLM 就能够调度多个智能体(范围从2至4)只需阅读简单的游戏说明 和菜谱即可完成菜肴,甚至与人类玩家合作;
- 具有高级提示的规划:我们能够 通过利用新兴的上下文学习能力来显着提高他们的多智能体规划性能:
- 通用潜力:LLM展现出作为通才多智能 体规划者的巨大潜力,因为它具有很强的泛化能力,可以用更少的智能体示例来协 调更多的智能体,并适应像《我的世界》这样的新游戏领域。