Eureka: Human-Level Reward Design via Coding Large Language Models 译读笔记

Eureka: Human-Level Reward Design via Coding Large Language Models

摘要

大型语言模型 (LLM) 作为顺序决策任务的高级语义规划器表现出色。然而,利用它们来学习复杂的低级作任务,例如灵巧的笔spinning,仍然是一个悬而未决的问题。我们弥合了这一基本差距,并提出了Eureka,这是一种由LLM提供支持的人类级奖励设计算法。Eureka利用最先进的 LLM(例如 GPT-4)卓越的零样本生成、代码编写和上下文改进能力,对奖励代码进行进化优化。然后,由此产生的奖励可用于通过强化学习获得复杂的技能。无需任何特定于任务的提示或预定义的奖励模板,Eureka生成的奖励函数的性能优于专家人工设计的奖励。在包含10种不同机器人形态的 29 个开源 RL 环境的多样化套件中,Eureka在83%的任务上优于人类专家,平均标准化改进率为52%。Eureka的通用性还使得一种新的无梯度上下文学习方法能够从人类反馈中强化学习(RLHF),轻松地结合人类输入来提高生成奖励的质量和安全性,而无需更新模型。最后,在课程学习环境中使用Eureka奖励,我们首次演示了一种能够执行转笔技巧的模拟影子手,熟练地快速绕圈纵笔。

1 引言

大型语言模型 (LLM) 作为机器人任务的高级语义规划器表现出色 (Ahn et al., 2022; Singh et al., 2023), 但它们是否可以用来学习复杂的低级作任务,例如灵巧的笔旋转,仍然是一个悬而未决的问题。现有的尝试需要大量的领域专业知识来构建任务提示或只学习简单的技能,这在实现人类水平的灵活性方面留下了很大的gap(Yu et al., 2023; Brohan et al., 2023)。

另一方面,强化学习 (RL) 在灵活性方面取得了令人印象深刻的成果 (Andrychowicz et al., 2020; Handa et al., 2023) 以及许多其他领域------如果人类设计者能够仔细构建奖励函数,准确地编纂并为所需行为提供学习信号;同样,许多现实世界的 RL 任务都承认难以学习的稀疏奖励,因此需要提供增量学习信号的奖励塑造。尽管奖励函数具有根本性的重要性,但众所周知,奖励函数在实践中很难设计 (Russell & Norvig, 1995; Sutton & Barto, 2018); 最近进行的一项调查发现,92% 的受访强化学习研究人员和从业者报告了手动试错奖励设计,89% 的人表示他们设计的奖励不是最优的(Booth et al., 2023) 并导致意外行为 (Hadfield-Menell et al., 2017)。

鉴于奖励设计的至关重要性,本文探究是否有可能使用最先进的编码LLMs(例如 GPT-4) 开发通用奖励编程算法。

相关推荐
今天你TLE了吗1 小时前
LLM到Agent&RAG——AI概念概述 第一章:大模型
java·人工智能·语言模型·大模型
сокол2 小时前
【网安-等保评测-基础记录】网络安全等级保护2.0 详解(定级、备案、测评、整改一站式指南)
网络·笔记·网络安全·云计算
qeen874 小时前
【算法笔记】模拟与高精度加减乘除
c++·笔记·算法·高精度·模拟
MRDONG14 小时前
Hermes Agent(爱马仕):一个会“成长”的 AI 智能体
人工智能·语言模型·自然语言处理·prompt
U盘失踪了5 小时前
什么是B/S 架构和 C/S 架构
笔记
像一只黄油飞5 小时前
第二章-02-注释
笔记·python·学习·零基础
xiebingsuccess5 小时前
ThingsPanel IoT Platform 学习笔记
笔记·学习
是上好佳佳佳呀5 小时前
【前端(七)】CSS3 核心属性笔记:单位、背景、盒子模型与文本换行
前端·笔记·css3
雾岛听蓝5 小时前
Qt 输入与多元素控件详解
开发语言·经验分享·笔记·qt
renhongxia16 小时前
网络效应与大型语言模型辩论中的协议漂移
大数据·人工智能·机器学习·语言模型·自然语言处理·语音识别·xcode