Eureka: Human-Level Reward Design via Coding Large Language Models 译读笔记

Eureka: Human-Level Reward Design via Coding Large Language Models

摘要

大型语言模型 (LLM) 作为顺序决策任务的高级语义规划器表现出色。然而,利用它们来学习复杂的低级作任务,例如灵巧的笔spinning,仍然是一个悬而未决的问题。我们弥合了这一基本差距,并提出了Eureka,这是一种由LLM提供支持的人类级奖励设计算法。Eureka利用最先进的 LLM(例如 GPT-4)卓越的零样本生成、代码编写和上下文改进能力,对奖励代码进行进化优化。然后,由此产生的奖励可用于通过强化学习获得复杂的技能。无需任何特定于任务的提示或预定义的奖励模板,Eureka生成的奖励函数的性能优于专家人工设计的奖励。在包含10种不同机器人形态的 29 个开源 RL 环境的多样化套件中,Eureka在83%的任务上优于人类专家,平均标准化改进率为52%。Eureka的通用性还使得一种新的无梯度上下文学习方法能够从人类反馈中强化学习(RLHF),轻松地结合人类输入来提高生成奖励的质量和安全性,而无需更新模型。最后,在课程学习环境中使用Eureka奖励,我们首次演示了一种能够执行转笔技巧的模拟影子手,熟练地快速绕圈纵笔。

1 引言

大型语言模型 (LLM) 作为机器人任务的高级语义规划器表现出色 (Ahn et al., 2022; Singh et al., 2023), 但它们是否可以用来学习复杂的低级作任务,例如灵巧的笔旋转,仍然是一个悬而未决的问题。现有的尝试需要大量的领域专业知识来构建任务提示或只学习简单的技能,这在实现人类水平的灵活性方面留下了很大的gap(Yu et al., 2023; Brohan et al., 2023)。

另一方面,强化学习 (RL) 在灵活性方面取得了令人印象深刻的成果 (Andrychowicz et al., 2020; Handa et al., 2023) 以及许多其他领域------如果人类设计者能够仔细构建奖励函数,准确地编纂并为所需行为提供学习信号;同样,许多现实世界的 RL 任务都承认难以学习的稀疏奖励,因此需要提供增量学习信号的奖励塑造。尽管奖励函数具有根本性的重要性,但众所周知,奖励函数在实践中很难设计 (Russell & Norvig, 1995; Sutton & Barto, 2018); 最近进行的一项调查发现,92% 的受访强化学习研究人员和从业者报告了手动试错奖励设计,89% 的人表示他们设计的奖励不是最优的(Booth et al., 2023) 并导致意外行为 (Hadfield-Menell et al., 2017)。

鉴于奖励设计的至关重要性,本文探究是否有可能使用最先进的编码LLMs(例如 GPT-4) 开发通用奖励编程算法。

相关推荐
SmartBrain35 分钟前
战略洞察:以AI为代表的第四次工业革命
人工智能·语言模型·aigc
r i c k1 小时前
数据库系统学习笔记
数据库·笔记·学习
shandianchengzi2 小时前
【小白向】错位排列|图文解释公考常见题目错位排列的递推式Dn=(n-1)(Dn-2+Dn-1)推导方式
笔记·算法·公考·递推·排列·考公
浅念-3 小时前
C语言编译与链接全流程:从源码到可执行程序的幕后之旅
c语言·开发语言·数据结构·经验分享·笔记·学习·算法
The森3 小时前
Linux IO 模型纵深解析 01:从 Unix 传统到 Linux 内核的 IO 第一性原理
linux·服务器·c语言·经验分享·笔记·unix
tq10863 小时前
Skills 的问题与解决方案
笔记
三水不滴3 小时前
有 HTTP 了为什么还要有 RPC?
经验分享·笔记·网络协议·计算机网络·http·rpc
三块可乐两块冰4 小时前
【第二十九周】机器学习笔记三十
笔记
陈天伟教授4 小时前
人工智能应用- 语言处理:02.机器翻译:规则方法
人工智能·深度学习·神经网络·语言模型·自然语言处理·机器翻译
听麟4 小时前
HarmonyOS 6.0+ 跨端智慧政务服务平台开发实战:多端协同办理与电子证照管理落地
笔记·华为·wpf·音视频·harmonyos·政务