论文笔记:SmartPlay : A Benchmark for LLMs as Intelligent Agents

iclr 2024 reviewer评分 5688

  • 引入了 SmartPlay,一种从 6 种不同游戏中提取的基准
    • 衡量LLM作为智能体的能力

1 智能代理所需的能力

  • 论文借鉴游戏设计的概念,确定了智能LLM代理的九项关键能力,并为每项能力确定了多个等级:

|---------|---------------------------------------------------------------------------------------------|
| 长文本理解 | 一般LLM的能力 根据文档长度和句法变化定义了4个等级: 1) 几行固定文本 2) 几段固定文本 3) 带有句法变化 4) 长于1页(500字) |
| 推理 | 多跳逻辑推理和演绎,通常需要用于分析游戏对象的互动或行动条件/依赖关系 根据推理跳数定义了3个等级: 1) (0 ∼ 1) 2) (2 ∼ 3) 3) (> 3) |
| 指令/规则遵循 | 遵循环境或用户设定的规则和指令 我们根据游戏规则的数量定义了3个等级: 1) 单一规则, 2) (< 5), 3) (5+) |
| 规划 | 进行长期的情境规划以实现复杂目标 根据规划步骤和需要优先处理的并行目标定义了3个等级 1) < 5个规划步骤 2) 5个以上规划步//骤 3) 并行目标 |
| 泛化 | 在广泛的任务范围内表现出色。 根据游戏提供的变异度定义了3个等级: 1) 固定环境 2) 固定游戏世界但目标随机 3) 程序生成的游戏世界 |
| 理解概率 | 分析和估计随机事件的概率。 根据环境中随机性的重要性定义了3个等级: 1) 无随机性 2) 游戏中存在随机性 3) 随机性为核心游戏机制 |
| 从互动中学习 | 从实时互动中获取环境知识。 根据需要学习的独特互动次数定义了4个等级: 1) 无需学习 2) 单次互动 3) < 5次互动 4) 5次以上互动 |
| 错误/失误处理 | 从错误中恢复(例如,纠正错误的轨迹)。 根据是否需要处理错误以及是否需要额外的推理和重新规划定义了3个等级: 1) 不需要 2) 简单回滚即可纠错 3) 需要推理和重新规划以纠正错误 |
| 空间推理 | 空间推理通常需要用来理解方向和在游戏世界中导航(例如,导航2D/3D世界)。 根据维度定义了3个等级: 1) 0 ∼ 1D 2) 2D 3) 3D。 |

2 SMARTPLAY 中涉及的游戏

  • 双臂老虎机
  • 石头剪刀布
  • 汉诺塔
  • 信使
  • 制造者
  • 我的世界

3 实验

3.1 各种大模型比较

相关推荐
薛定e的猫咪3 天前
【AAAI 2025】基于扩散模型的昂贵多目标贝叶斯优化
论文阅读·人工智能·算法
YMWM_3 天前
论文阅读“SimVLA: A Simple VLA Baseline for Robotic Manipulation“
论文阅读·vla
m0_650108243 天前
VLN-Zero:零样本机器人导航的神经符号视觉语言规划框架
论文阅读·零样本·机器人导航·视觉语言导航·未知环境快速适配·符号化场景图·vlm推理
晓山清4 天前
【论文阅读】Self-supervised Learning of Person-specific Facial Dynamics for APR
论文阅读
张较瘦_4 天前
[论文阅读] AI + 教育 | 不是单纯看视频!软件工程培训的游戏化融合之道
论文阅读·人工智能·软件工程
张较瘦_4 天前
[论文阅读] AI + 软件工程 | 用统计置信度破解AI功能正确性评估难题——SCFC方法详解
论文阅读·人工智能·软件工程
Matrix_115 天前
论文阅读--Agent AI 探索多模态交互的前沿领域(二)
论文阅读·人工智能
万里鹏程转瞬至6 天前
论文简读 | TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times
论文阅读·深度学习·aigc
Matrix_116 天前
论文阅读--Agent AI 探索多模态交互的前沿领域(一)
论文阅读·人工智能
@––––––7 天前
论文阅读笔记:π 0 : A Vision-Language-Action Flow Model for General Robot Control
论文阅读·笔记