论文笔记：SmartPlay : A Benchmark for LLMs as Intelligent Agents

UQI-LIUWJ2024-04-20 23:29

iclr 2024 reviewer评分 5688

引入了 SmartPlay，一种从 6 种不同游戏中提取的基准
- 衡量LLM作为智能体的能力

1 智能代理所需的能力

论文借鉴游戏设计的概念，确定了智能LLM代理的九项关键能力，并为每项能力确定了多个等级：

|---------|---------------------------------------------------------------------------------------------|
| 长文本理解 | 一般LLM的能力根据文档长度和句法变化定义了4个等级： 1) 几行固定文本 2) 几段固定文本 3) 带有句法变化 4) 长于1页（500字） |
| 推理 | 多跳逻辑推理和演绎，通常需要用于分析游戏对象的互动或行动条件/依赖关系根据推理跳数定义了3个等级： 1) (0 ∼ 1) 2) (2 ∼ 3) 3) (> 3) |
| 指令/规则遵循 | 遵循环境或用户设定的规则和指令我们根据游戏规则的数量定义了3个等级： 1) 单一规则， 2) (< 5)， 3) (5+) |
| 规划 | 进行长期的情境规划以实现复杂目标根据规划步骤和需要优先处理的并行目标定义了3个等级 1) < 5个规划步骤 2) 5个以上规划步//骤 3) 并行目标 |
| 泛化 | 在广泛的任务范围内表现出色。根据游戏提供的变异度定义了3个等级： 1) 固定环境 2) 固定游戏世界但目标随机 3) 程序生成的游戏世界 |
| 理解概率 | 分析和估计随机事件的概率。根据环境中随机性的重要性定义了3个等级： 1) 无随机性 2) 游戏中存在随机性 3) 随机性为核心游戏机制 |
| 从互动中学习 | 从实时互动中获取环境知识。根据需要学习的独特互动次数定义了4个等级： 1) 无需学习 2) 单次互动 3) < 5次互动 4) 5次以上互动 |
| 错误/失误处理 | 从错误中恢复（例如，纠正错误的轨迹）。根据是否需要处理错误以及是否需要额外的推理和重新规划定义了3个等级： 1) 不需要 2) 简单回滚即可纠错 3) 需要推理和重新规划以纠正错误 |
| 空间推理 | 空间推理通常需要用来理解方向和在游戏世界中导航（例如，导航2D/3D世界）。根据维度定义了3个等级： 1) 0 ∼ 1D 2) 2D 3) 3D。 |

2 SMARTPLAY 中涉及的游戏

双臂老虎机
石头剪刀布
汉诺塔
信使
制造者
我的世界

论文笔记：SmartPlay : A Benchmark for LLMs as Intelligent Agents

1 智能代理所需的能力

2 SMARTPLAY 中涉及的游戏

3 实验

3.1 各种大模型比较