用GPT-4训练机器人,英伟达最新Agent开源:任务越复杂越拿手

训练机器人,AI 比人类更拿手!

英伟达最新 AI AgentEureka ,用 GPT-4 生成奖励函数,结果教会机器人完成了三十多个复杂任务。

比如,快速转个笔,打开抽屉和柜子、抛球和接球。

尤其是转笔这个技能,要知道靠人类逐帧制作动画,也是非常困难的。

最终,Eureka 在超过 80% 的任务中都超越人类专家,让机器人平均性能提升到 50% 以上。

这一研究吸引了数十万网友关注,有人表示:直接快进到它弹钢琴那天,直接为大众所用。

英伟达科学家,也是此次共同作者之一 Jim Fan 评价到,它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。

目前该项目完全开源。

在机器人学习中,大模型擅长生成高级语义规划和中级操作,比如拾取和放置(VIMA、RT-1 等),但在复杂任务控制方面有所欠缺。

而 Eureka 的关键所在,就是通过上下文来实现了人类水平的奖励算法设计

简单来说,就是用 GPT-4 的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化,由此通过强化学习来进行复杂的技能。

研究人员提出了一种混合梯度架构,外循环运行 GPT-4 来细化奖励函数(无梯度),而内循环运行强化学习来训练机器人控制器(基于梯度)。

主要有三个关键组成部分:

  • 模拟器环境代码作为上下文启动初始 "种子" 奖励函数。
  • GPU 上的大规模并行强化学习,可以快速评估大量候选奖励。
  • 奖励反射 reward reflection,得益于 GPT-4 评估和修改能力,一步步迭代。

首先,无需任何特定提示工程和奖励模版。使用原始 Isaac Gym (一种 GPU 加速的物理模拟器)环境代码作为上下文,生成初始奖励函数。

这种无梯度的情境学习方式,可以根据各种形式的人类输入,生成性能更强、符合开发人员愿景的奖励函数。

其次,Eureka 在每个进化步骤中都会生成很多候选函数,然后利用强化学习训练来进行快速评估。

以往这种过程需要几天甚至几周来完成,但由 Isaac Gym 可将模拟时间提高 1000 倍,强化学习内循环能在几分钟完成。

最后,依赖于奖励反射,Eureka 还支持一种新形式的上下文 RLHF。它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。

最终,在 29 种不同的开源 RL 环境中,83% 基准测试中 Eureka 都优于人类,并实现了 52% 改进。

这些环境包括 10 种不同的机器人形态,比如四足机器人、四旋翼机器人、双足机器人、机械手等。

让研究人员惊讶的是,尤其在处理复杂、高维电机控制的任务上,Eureka 表现更好,且与人类奖励的相关性越低。

甚至在少数情况下,AI 的策略与人类的策略呈现负相关。

这就有点像当年 AlphaGo 的下棋策略,人类看不懂学不会,但十分有效。

这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。

可以看到的是,近半数研究人员都是华人。

一作是 Yecheng Jason Ma,目前是宾大 GRASP 实验室的四年级博士生,研究方向是强化学习和机器人学习。

英伟达科学家 Jim Fan 此次也是通讯作者之一。

咳咳,不过至于网友提到的弹钢琴,Jim Fan 自己曾分享过:只需几个简单按钮,AI 就能实时即兴生成演奏音乐。

不知道,未来会不会这样的呢?(不过,这研究已经是 2018 年的了)

论文链接:
arxiv.org/abs/2310.12...

GitHub 链接:
github.com/eureka-rese...

参考链接:
venturebeat.com/ai/new-nvid...
twitter.com/DrJimFan/st...

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关推荐
战场小包2 个月前
OpenAI动荡,将走向何方、GPT5或许将近、毒舌AI轻松破防网友、最新版 GPT-4o AI 模型得满分 | AGI掘金视界周刊第 4 期
人工智能·资讯
字节跳动开源2 个月前
字节跳动开源多云多集群管理引擎 KubeAdmiral v1.0.0 发布!
开源·github·资讯
战场小包2 个月前
AI视界周刊第 2 期:里程碑 Llama 3.1 开源、AI训AI,越训越傻、AI 搜索重燃战火
人工智能·资讯
栩栩云生2 个月前
[240726] Mistral AI 发布新一代旗舰模型 | Node.js 合并 TypeScript 文件执行提案
typescript·node.js·资讯
赵侠客2 个月前
使用Hutool要注意了!升级到6.0后你调用的所有方法都将报错
java·后端·资讯
栩栩云生3 个月前
[240706] 史蒂夫·乔布斯近40年前就预言了苹果智能 | Globalping 用于网络诊断和性能测试的命令行工具
命令行·apple·资讯
栩栩云生3 个月前
[240622] X-CMD 发布 v0.3.12: 引入 codeberg,增强传统命令,改善对 Elvish 和 Fish 支持
开源·命令行·资讯
机器之心4 个月前
英伟达开源最强通用模型Nemotron-4 340B
llm·资讯
小小谢在掘金4 个月前
【2024W24】肖恩技术周刊(第 2 期)
资讯
机器之心4 个月前
原作者带队,LSTM卷土重来之Vision-LSTM出世
人工智能·资讯