ChatGPT有身体了?

网络上最近流传的一个视频,展示了"Figure 01"------一个能够进行对话的人形机器人,其场景之诡异,让人不禁想到《我,机器人》中的某个删减镜头。

视频中,装备了OpenAI的"Figure 01"被问及其能"看到"什么。这个前沿机器人展现了它的视觉识别技能,准确描述了眼前的物体:一颗红苹果、一个挂着餐具的晾碗架,以及向它提问的男子。虽然这听起来有些不可思议,但其实我们早有所见,对吧?比如去年,谷歌演示了它的AI模型Gemini能如何识别放在它面前的物体,从一只蓝色橡胶鸭到多种手画图案(后来虽然被发现视频经过了巧妙剪辑,夸大了其能力)。

接着,当那位男士问:"我能吃点什么吗?"时,"Figure 01"抓起桌上唯一可食用的物体------那颗苹果,递给了他。

呃,难道威尔·史密斯不会突然出现吗?

"Figure 01"机器人是怎么运作的

究竟是什么技术让"Figure 01"能够如此流畅地与人互动?答案是一个新型的视觉语言模型(VLM),它让"Figure 01"从一个笨拙的金属块转变为了一个近乎科幻的、未来感十足且过于逼真的机器人。(这个VLM是OpenAI与"Figure 01"背后的创业公司Figure合作的成果。)在递出苹果之后,当被问到"为什么给我苹果,同时能捡起这个垃圾吗?"时,"Figure 01"展示了它可以同时执行多项任务。

它在辨别哪些是垃圾(哪些不是)的同时,将合适的物品放入它认为是垃圾桶的地方,并解释说之所以给那位男士一个苹果,是因为那是他面前唯一可以吃的东西。这真是令人印象深刻的多任务处理!

最后,那位男士询问"Figure 01"它自认为表现如何。"Figure 01"以一种类似对话的方式回答说:"我认为我做得挺好。苹果找到了新的主人,垃圾也被清理掉了,餐具也被放回了它们应该在的位置。"

根据Figure创始人Brett Adcock的说法,"Figure 01"装有摄像头,这些摄像头向VLM提供数据,帮助它"理解"眼前的场景,使得这个机器人能够与面前的人类顺利地进行互动。除了Adcock之外,"Figure 01"还是波士顿动力、特斯拉、谷歌Deep Mind和Archer Aviation等公司的几位核心成员的共同创造成果。

文章来源:
ChatGPT有身体了?

相关推荐
明明真系叻几秒前
第二十六周机器学习笔记:PINN求正反解求PDE文献阅读——正问题
人工智能·笔记·深度学习·机器学习·1024程序员节
88号技师1 小时前
2024年12月一区SCI-加权平均优化算法Weighted average algorithm-附Matlab免费代码
人工智能·算法·matlab·优化算法
IT猿手1 小时前
多目标应用(一):多目标麋鹿优化算法(MOEHO)求解10个工程应用,提供完整MATLAB代码
开发语言·人工智能·算法·机器学习·matlab
88号技师1 小时前
几款性能优秀的差分进化算法DE(SaDE、JADE,SHADE,LSHADE、LSHADE_SPACMA、LSHADE_EpSin)-附Matlab免费代码
开发语言·人工智能·算法·matlab·优化算法
2301_764441332 小时前
基于python语音启动电脑应用程序
人工智能·语音识别
HyperAI超神经2 小时前
未来具身智能的触觉革命!TactEdge传感器让机器人具备精细触觉感知,实现织物缺陷检测、灵巧操作控制
人工智能·深度学习·机器人·触觉传感器·中国地质大学·机器人智能感知·具身触觉
galileo20162 小时前
转化为MarkDown
人工智能
说私域3 小时前
私域电商逆袭密码:AI 智能名片小程序与商城系统如何梦幻联动
人工智能·小程序
请站在我身后3 小时前
复现Qwen-Audio 千问
人工智能·深度学习·语言模型·语音识别
love you joyfully3 小时前
目标检测与R-CNN——paddle部分
人工智能·目标检测·cnn·paddle