Eureka: Human-Level Reward Design via Coding Large Language Models 译读笔记

Eureka: Human-Level Reward Design via Coding Large Language Models

摘要

大型语言模型 (LLM) 作为顺序决策任务的高级语义规划器表现出色。然而,利用它们来学习复杂的低级作任务,例如灵巧的笔spinning,仍然是一个悬而未决的问题。我们弥合了这一基本差距,并提出了Eureka,这是一种由LLM提供支持的人类级奖励设计算法。Eureka利用最先进的 LLM(例如 GPT-4)卓越的零样本生成、代码编写和上下文改进能力,对奖励代码进行进化优化。然后,由此产生的奖励可用于通过强化学习获得复杂的技能。无需任何特定于任务的提示或预定义的奖励模板,Eureka生成的奖励函数的性能优于专家人工设计的奖励。在包含10种不同机器人形态的 29 个开源 RL 环境的多样化套件中,Eureka在83%的任务上优于人类专家,平均标准化改进率为52%。Eureka的通用性还使得一种新的无梯度上下文学习方法能够从人类反馈中强化学习(RLHF),轻松地结合人类输入来提高生成奖励的质量和安全性,而无需更新模型。最后,在课程学习环境中使用Eureka奖励,我们首次演示了一种能够执行转笔技巧的模拟影子手,熟练地快速绕圈纵笔。

1 引言

大型语言模型 (LLM) 作为机器人任务的高级语义规划器表现出色 (Ahn et al., 2022; Singh et al., 2023), 但它们是否可以用来学习复杂的低级作任务,例如灵巧的笔旋转,仍然是一个悬而未决的问题。现有的尝试需要大量的领域专业知识来构建任务提示或只学习简单的技能,这在实现人类水平的灵活性方面留下了很大的gap(Yu et al., 2023; Brohan et al., 2023)。

另一方面,强化学习 (RL) 在灵活性方面取得了令人印象深刻的成果 (Andrychowicz et al., 2020; Handa et al., 2023) 以及许多其他领域------如果人类设计者能够仔细构建奖励函数,准确地编纂并为所需行为提供学习信号;同样,许多现实世界的 RL 任务都承认难以学习的稀疏奖励,因此需要提供增量学习信号的奖励塑造。尽管奖励函数具有根本性的重要性,但众所周知,奖励函数在实践中很难设计 (Russell & Norvig, 1995; Sutton & Barto, 2018); 最近进行的一项调查发现,92% 的受访强化学习研究人员和从业者报告了手动试错奖励设计,89% 的人表示他们设计的奖励不是最优的(Booth et al., 2023) 并导致意外行为 (Hadfield-Menell et al., 2017)。

鉴于奖励设计的至关重要性,本文探究是否有可能使用最先进的编码LLMs(例如 GPT-4) 开发通用奖励编程算法。

相关推荐
愤怒的可乐1 小时前
从零构建大模型智能体:统一消息格式,快速接入大语言模型
人工智能·语言模型·自然语言处理
('-')3 小时前
《从根上理解MySQL是怎样运行的》第十章学习笔记
笔记·学习·mysql
hd51cc3 小时前
MFC学习笔记 对话框
笔记·学习·mfc
卡提西亚3 小时前
数据库笔记-4-SQL语言之DCL
数据库·笔记·sql
努力改掉拖延症的小白3 小时前
Intel笔记本也能部署大模型(利用Ultra系列gpu通过优化版ollama实现)
人工智能·ai·语言模型·大模型
Radan小哥3 小时前
Docker学习笔记—day0010
笔记·学习·docker
im_AMBER3 小时前
Canvas架构手记 05 鼠标事件监听 | 原生事件封装 | ctx 结构化对象
前端·笔记·学习·架构
黑客思维者4 小时前
LLM底层原理学习笔记:模型评估的基准测试体系与方法论
人工智能·笔记·神经网络·学习·模型评估·基准测试
andeyeluguo4 小时前
postman笔记
笔记
winfreedoms4 小时前
小迪上课笔记之Web3——Sodility基础篇1
笔记·web3·区块链