Eureka: Human-Level Reward Design via Coding Large Language Models 译读笔记大型语言模型 (LLM) 作为顺序决策任务的高级语义规划器表现出色。然而,利用它们来学习复杂的低级作任务,例如灵巧的笔spinning,仍然是一个悬而未决的问题。我们弥合了这一基本差距,并提出了Eureka,这是一种由LLM提供支持的人类级奖励设计算法。Eureka利用最先进的 LLM(例如 GPT-4)卓越的零样本生成、代码编写和上下文改进能力,对奖励代码进行进化优化。然后,由此产生的奖励可用于通过强化学习获得复杂的技能。无需任何特定于任务的提示或预定义的奖励模板,Eureka生成的奖励函数的性能优于专