Eureka: Human-Level Reward Design via Coding Large Language Models 译读笔记

Eureka: Human-Level Reward Design via Coding Large Language Models

摘要

大型语言模型（LLM）作为顺序决策任务的高级语义规划器表现出色。然而，利用它们来学习复杂的低级作任务，例如灵巧的笔spinning，仍然是一个悬而未决的问题。我们弥合了这一基本差距，并提出了Eureka，这是一种由LLM提供支持的人类级奖励设计算法。Eureka利用最先进的 LLM（例如 GPT-4）卓越的零样本生成、代码编写和上下文改进能力，对奖励代码进行进化优化。然后，由此产生的奖励可用于通过强化学习获得复杂的技能。无需任何特定于任务的提示或预定义的奖励模板，Eureka生成的奖励函数的性能优于专家人工设计的奖励。在包含10种不同机器人形态的 29 个开源 RL 环境的多样化套件中，Eureka在83%的任务上优于人类专家，平均标准化改进率为52%。Eureka的通用性还使得一种新的无梯度上下文学习方法能够从人类反馈中强化学习（RLHF），轻松地结合人类输入来提高生成奖励的质量和安全性，而无需更新模型。最后，在课程学习环境中使用Eureka奖励，我们首次演示了一种能够执行转笔技巧的模拟影子手，熟练地快速绕圈纵笔。

1 引言

大型语言模型（LLM）作为机器人任务的高级语义规划器表现出色（Ahn et al., 2022; Singh et al., 2023），但它们是否可以用来学习复杂的低级作任务，例如灵巧的笔旋转，仍然是一个悬而未决的问题。现有的尝试需要大量的领域专业知识来构建任务提示或只学习简单的技能，这在实现人类水平的灵活性方面留下了很大的gap（Yu et al., 2023; Brohan et al., 2023）。

另一方面，强化学习（RL）在灵活性方面取得了令人印象深刻的成果（Andrychowicz et al., 2020; Handa et al., 2023）以及许多其他领域------如果人类设计者能够仔细构建奖励函数，准确地编纂并为所需行为提供学习信号;同样，许多现实世界的 RL 任务都承认难以学习的稀疏奖励，因此需要提供增量学习信号的奖励塑造。尽管奖励函数具有根本性的重要性，但众所周知，奖励函数在实践中很难设计（Russell & Norvig, 1995; Sutton & Barto, 2018）; 最近进行的一项调查发现，92% 的受访强化学习研究人员和从业者报告了手动试错奖励设计，89% 的人表示他们设计的奖励不是最优的（Booth et al., 2023）并导致意外行为（Hadfield-Menell et al., 2017）。

鉴于奖励设计的至关重要性，本文探究是否有可能使用最先进的编码LLMs（例如 GPT-4）开发通用奖励编程算法。