NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”

NVIDIA AI 的研究科学家 Jim Fan 在TED做了一次关于Foundation Agent的分享,我看完感到非常震撼,反复看了好几遍。这里给大家分享下我整理的简要中文文字版,想看原英文视频的见文章最底部的链接。

人工通用智能的研究框架

Jim Fan 认为现在针对一般能力的人工智能代理的研究工作主要是围绕着三个轴,分别是:代理可以执行的技能数量(能力),代理可以控制的身体形式或体现(具身化),以及代理可以掌握现实的能力(感受现实和反应)。

人工通用智能的研究目标

他之前被AlphaGo战胜世界围棋冠军感到震撼,但是后来发现AlphaGo的技能太少了,只会下围棋。他认为人工智能代理的目标是右上方,也就是技能,具身化和现实三个轴同时都有不错的能力的人工智能agent。

能力学习方向 Voyager

能力轴上他分享了他领导研究的 Voyager,这是一个在《我的世界》游戏中可以大规模扩展多种技能的代理。只需要给Voyager设定一个高层目标"尽可能获得多的独特物品",然后它就可以自己不断地玩游戏,探索地形,开采各种材料,对抗怪物,制作数百种食谱等等,并解锁不断扩大的技能树。

这个代理的核心是将编码作为行动。 首先,研究人员将3D世界转换为文本表示,然后调用GPT4编写js代码,这些js代码将成为游戏中的技能。代码写错了,有bug怎么办?那就增加一个"自我反思机制"来改进和提高。它利用三种反馈源:代码编译或执行报错,agent自身的状态(生命值,饥饿值等等)还有世界状态(附近的地形和物体,比如森林,树木,动物,金属等等)。

Voyager 根据自身状态和世界状态采取一个行动(写一段代码),观察行动对自身状态和世界状态的影响(观察代码是否可以正确运行,以及运行后对自己和世界的影响),反思如何做得更好(根据代码错误、代码执行后的影响反馈调整代码,使得代码可以正确编译运行并带来正收益)。它不断地尝试新的行动和计划,并反复进行。一旦技能成熟(代码可以编译和运行,并且运行后可以获得正收益),Voyager 就把它保存到技能库中,后边可以持续使用。技能库其实就是一个代码库,可以执行并且执行后能得到正反馈的代码保存在里边。

在这个探索过程中,Voyager不仅能掌握技能,还可以发现新技能。而这一切并没有预编程,都是Voyager自己的主意。这里可以看到一个终身学习的人工智能的雏形。agent永远好奇,永远追求新的尝试。相比AlphaGo,Voyager大幅拓展了agent能做的许多事情。

具身化方向 MetaMorph

虽然Voyager学会了很多技能,但它只能在《我的世界》中控制一个角色。那能不能有一个算法,可以控制不同的身体或其他形式的体现?MetaMorph就是这样一个研究项目。

这是一个基础模型,它可以同时控制成千上万的具有不同的手臂和腿部配置的机器人。MetaMorph 能够同时处理不同机器人身体的极其不同的运动特性。

MetaMorph的核心思想如下图所示,首先创造不同的词汇表来描述身体部位,这样每个机器人身体基本就是一个用词汇表编写的句子。然后将这些句子输入到类似于ChatGPT的tranformer结构中,但是这个transformer不是像ChatGPT那样输出文字,而是输出电机控制指令。 **

**

MetaMorph能够控制数千个机器人上楼,穿越复杂地形以及避开障碍物。未来,如果我们能够大大拓展这个机器人的词汇量,MetaMorph 2.0 应该可以推广到机器人手,人形机器人手,狗,无人机甚至其他具身形态。

现实感知和反应方向 IsaacSim

IsaacSim 最大的优势是加速物理模拟,它可以比现实中快1000倍以上。

比如上图的机器人手练习,以及下图的机器人学习武术,它可以仅用三天的模拟时间就可以完成在现实中要十年才能完成的刻苦练习。这很像《黑客帝国》中的虚拟陪练道场。

更重要的是,IsaacSim可以按程序生成世界,具有无限的变化,因此没有两个看起来是相同的。一个有趣的想法,如果agent可以掌握1万次模拟,那么也许就可以推广到现实中,这就是第1万零1个现实。

Foundation Agent

当我们在下图沿着不同的轴往前走的,我们最终会达到右上角,这就是Foundation Agent。这是一个具备三个轴的能力的代理。

Jim Fan 认为训练Foundation Agent将与训练ChatGPT非常相似。ChatGPT是文本进去,文本出来。

Foundation Agent就是具身化提示和任务提示进去,行动出来。

Jin Fan最后表示:他坚信未来所有可以移动的东西都将实现自主控制。

TED视频链接:

www.ted.com/talks/jim_f...

相关推荐
蕤葳-1 分钟前
深度解析:基于AI人才标准,为职场新人规划一级与二级认证的报考路径
人工智能
只与明月听1 分钟前
RAG深入学习之向量数据库
前端·人工智能·python
月诸清酒4 分钟前
别让你的 Coding Agent 瞎忙活,你最缺的可能是这套 Harness 规则
人工智能
极客老王说Agent5 分钟前
别被OpenClaw的30万Star晃了眼!AI产业逻辑重写后,打工人更该看清谁在“真干活”
人工智能·ai·chatgpt
Bruce20489986 分钟前
OpenClaw 零基础全解析(小白友好版)
人工智能·chatgpt
Bruce204899830 分钟前
OpenClaw 自定义Skill插件开发全流程(2026最新版)
人工智能
TengTaiTech33 分钟前
从航空级混音到AI协同指挥:基于QCC5181与大模型打造新一代智能耳机
人工智能·qcc·混音
水如烟37 分钟前
孤能子视角:关系枢纽与大模型
人工智能
ZiLing40 分钟前
做 AI Agent Runtime 半年后,我发现它根本不是“会调用工具的 LLM”
人工智能·agent
南湖北漠41 分钟前
听说拍照的人会拿相似的鱼皮豆代替野生鹌鹑蛋拍照(防原创)
网络·人工智能·计算机网络·生活