谷歌推出AI模型机器人RT2 将文本和图像输出为机器人动作

去年年底,ChatGPT火遍全球,全世界都见识了大语言模型的强大力量。人们对大模型不再陌生,开始使用基于大模型的应用绘画、作图、搜索资料、设计剧情等,而妙用不止于此。谷歌推出了Robotics Transformer 2(RT2),这是一个视觉-语言-动作(VLA)模型,可以将文本和图像输出为机器人动作。

谷歌介绍,RT-2基于Transformer模型开发,根据互联网上的文本和图像进行训练,直接指示机器人执行动作。就像用文本训练大语言模型学习人类知识一样,RT-2可以将网络数据喂给机器人,指导机器人的行为。为了展示RT-2的能力,谷歌发布了一个演示视频,让搭载RT-2的机器人完成一些它此前从未经过训练的项目。

视频中,面对一堆随意放在桌上的物品,搭载了RT-2模型的机械臂能够听懂人类语言并做出相应的反应。比如,命令它"捡起已灭绝的动物",机械臂就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确选择恐龙;如果命令它将香蕉放到2+1的总和的位置,机械臂直接把香蕉放在了数字3的位置;再让它把草莓放入碗里,机器人也能够无视苹果、橘子等水果,选对草莓。不过,在演示过程中,机器人也出现了错误,它不能准确地识别汽水口味,这让它看起来还有不小的优化空间。即便还不够完美,但机器人能够自主理解、推理和执行任务,已经是一个长足的进步。

DeepMind机器人技术主管 Vincent 以"扔垃圾"这个看似简单的操作举例,如果想要以前的系统执行丢弃垃圾的行为,必须明确训练它识别和处理垃圾,而RT-2可以从大量网络数据中学习并理解什么是垃圾,并在未经特定训练的情况下进行识别。尽管未曾接受过相关动作训练,但它能掌握如何丢弃垃圾的方法。"考虑到垃圾的抽象性,比如各种薯片包或香蕉皮在你食用后就成为了垃圾,RT-2 能通过其视觉语言培训数据理解这个概念,并完成任务。RT-2就给机器人输入了认知能力,让它能够在互联网上学习和进步,甚至还能进行一般推理。这对于机器人产业来说,不亚于一次物种进化。

谷歌表示,RT-2 让我们更接近机器人的未来。机器人的灵巧性仍达不到人类水平,在一些基本任务上也会失败,但谷歌利用人工智能语言模型,赋予机器人推理和随机应变的新技能,是一个很有希望的突破。相信,随着人工智能技术的不断发展,机器人将越来越多地被用于执行各种任务。

相关素材整理于《为机器人装"大脑" 谷歌发布RT-2大模型》一文

相关推荐
飞哥数智坊9 分钟前
AI编程实战:Cursor 1.0 上手实测,刀更锋利马更快
人工智能·cursor
vlln14 分钟前
【论文解读】ReAct:从思考脱离行动, 到行动反馈思考
人工智能·深度学习·机器学习
qq_4309085731 分钟前
华为ICT和AI智能应用
人工智能·华为
试剂界的爱马仕1 小时前
软珊瑚成分 CI-A:靶向口腔癌细胞的 “氧化利剑” 与 ERK 密码
网络·人工智能·科技·机器学习·ci/cd·ai写作
小王毕业啦1 小时前
2022年 国内税务年鉴PDF电子版Excel
大数据·人工智能·数据挖掘·数据分析·数据统计·年鉴·社科数据
1296004522 小时前
机器翻译模型笔记
人工智能·笔记·机器翻译
superior tigre2 小时前
RNN循环网络:给AI装上“记忆“(superior哥AI系列第5期)
人工智能·rnn·深度学习
s153352 小时前
8.RV1126-OPENCV 视频中添加LOGO
人工智能·opencv·音视频
TextIn智能文档云平台2 小时前
从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?
人工智能·自然语言处理·ocr·pdf解析·textin·复杂文档解析
(・Д・)ノ2 小时前
python打卡day44
人工智能·python·机器学习