奖励函数设计 - 奖励函数设计技术,学习,经验文章

datamonday

2 年前

【EAI 019】Eureka: Human-Level Reward Design via Coding LLM论文标题：Eureka: Human-Level Reward Design via Coding Large Language Models 论文作者：Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar 作者单位：NVIDIA; UPenn; Caltech; UT Austin 论文原文：ht