Eureka: Human-Level Reward Design via Coding Large Language Models 译读笔记

Eureka: Human-Level Reward Design via Coding Large Language Models

摘要

大型语言模型 (LLM) 作为顺序决策任务的高级语义规划器表现出色。然而,利用它们来学习复杂的低级作任务,例如灵巧的笔spinning,仍然是一个悬而未决的问题。我们弥合了这一基本差距,并提出了Eureka,这是一种由LLM提供支持的人类级奖励设计算法。Eureka利用最先进的 LLM(例如 GPT-4)卓越的零样本生成、代码编写和上下文改进能力,对奖励代码进行进化优化。然后,由此产生的奖励可用于通过强化学习获得复杂的技能。无需任何特定于任务的提示或预定义的奖励模板,Eureka生成的奖励函数的性能优于专家人工设计的奖励。在包含10种不同机器人形态的 29 个开源 RL 环境的多样化套件中,Eureka在83%的任务上优于人类专家,平均标准化改进率为52%。Eureka的通用性还使得一种新的无梯度上下文学习方法能够从人类反馈中强化学习(RLHF),轻松地结合人类输入来提高生成奖励的质量和安全性,而无需更新模型。最后,在课程学习环境中使用Eureka奖励,我们首次演示了一种能够执行转笔技巧的模拟影子手,熟练地快速绕圈纵笔。

1 引言

大型语言模型 (LLM) 作为机器人任务的高级语义规划器表现出色 (Ahn et al., 2022; Singh et al., 2023), 但它们是否可以用来学习复杂的低级作任务,例如灵巧的笔旋转,仍然是一个悬而未决的问题。现有的尝试需要大量的领域专业知识来构建任务提示或只学习简单的技能,这在实现人类水平的灵活性方面留下了很大的gap(Yu et al., 2023; Brohan et al., 2023)。

另一方面,强化学习 (RL) 在灵活性方面取得了令人印象深刻的成果 (Andrychowicz et al., 2020; Handa et al., 2023) 以及许多其他领域------如果人类设计者能够仔细构建奖励函数,准确地编纂并为所需行为提供学习信号;同样,许多现实世界的 RL 任务都承认难以学习的稀疏奖励,因此需要提供增量学习信号的奖励塑造。尽管奖励函数具有根本性的重要性,但众所周知,奖励函数在实践中很难设计 (Russell & Norvig, 1995; Sutton & Barto, 2018); 最近进行的一项调查发现,92% 的受访强化学习研究人员和从业者报告了手动试错奖励设计,89% 的人表示他们设计的奖励不是最优的(Booth et al., 2023) 并导致意外行为 (Hadfield-Menell et al., 2017)。

鉴于奖励设计的至关重要性,本文探究是否有可能使用最先进的编码LLMs(例如 GPT-4) 开发通用奖励编程算法。

相关推荐
Rabbit_QL18 小时前
【LLM评价指标】从概率到直觉:理解语言模型的困惑度
人工智能·语言模型·自然语言处理
小智RE0-走在路上20 小时前
Python学习笔记(8) --函数的多返回值,不同传参,匿名函数
笔记·python·学习
摇滚侠20 小时前
Redis 零基础到进阶,Redis 哨兵监控,笔记63-73
数据库·redis·笔记
老王熬夜敲代码21 小时前
网络中数据传输的具体过程
linux·网络·笔记
charlie11451419121 小时前
现代C++嵌入式教程:C++98基础特性:从C到C++的演进(1)
c语言·开发语言·c++·笔记·学习·教程
汤愈韬1 天前
TK_网络基础和常见攻击(笔记)
网络·笔记
喜欢吃豆1 天前
我把 LLM 技术栈做成了一张“可复用的认知地图”:notes-on-llms 开源仓库介绍
学习·语言模型·架构·开源·大模型·多模态
nnsix1 天前
QFramework学习笔记
笔记·学习
XFF不秃头1 天前
力扣刷题笔记-全排列
c++·笔记·算法·leetcode
لا معنى له1 天前
目标分割介绍及最新模型----学习笔记
人工智能·笔记·深度学习·学习·机器学习·计算机视觉