谷歌推出AI模型机器人RT2 将文本和图像输出为机器人动作

去年年底，ChatGPT火遍全球，全世界都见识了大语言模型的强大力量。人们对大模型不再陌生，开始使用基于大模型的应用绘画、作图、搜索资料、设计剧情等，而妙用不止于此。谷歌推出了Robotics Transformer 2(RT2)，这是一个视觉-语言-动作（VLA）模型，可以将文本和图像输出为机器人动作。

谷歌介绍，RT-2基于Transformer模型开发，根据互联网上的文本和图像进行训练，直接指示机器人执行动作。就像用文本训练大语言模型学习人类知识一样，RT-2可以将网络数据喂给机器人，指导机器人的行为。为了展示RT-2的能力，谷歌发布了一个演示视频，让搭载RT-2的机器人完成一些它此前从未经过训练的项目。

视频中，面对一堆随意放在桌上的物品，搭载了RT-2模型的机械臂能够听懂人类语言并做出相应的反应。比如，命令它"捡起已灭绝的动物"，机械臂就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确选择恐龙；如果命令它将香蕉放到2+1的总和的位置，机械臂直接把香蕉放在了数字3的位置；再让它把草莓放入碗里，机器人也能够无视苹果、橘子等水果，选对草莓。不过，在演示过程中，机器人也出现了错误，它不能准确地识别汽水口味，这让它看起来还有不小的优化空间。即便还不够完美，但机器人能够自主理解、推理和执行任务，已经是一个长足的进步。

DeepMind机器人技术主管 Vincent 以"扔垃圾"这个看似简单的操作举例，如果想要以前的系统执行丢弃垃圾的行为，必须明确训练它识别和处理垃圾，而RT-2可以从大量网络数据中学习并理解什么是垃圾，并在未经特定训练的情况下进行识别。尽管未曾接受过相关动作训练，但它能掌握如何丢弃垃圾的方法。"考虑到垃圾的抽象性，比如各种薯片包或香蕉皮在你食用后就成为了垃圾，RT-2 能通过其视觉语言培训数据理解这个概念，并完成任务。RT-2就给机器人输入了认知能力，让它能够在互联网上学习和进步，甚至还能进行一般推理。这对于机器人产业来说，不亚于一次物种进化。

谷歌表示，RT-2 让我们更接近机器人的未来。机器人的灵巧性仍达不到人类水平，在一些基本任务上也会失败，但谷歌利用人工智能语言模型，赋予机器人推理和随机应变的新技能，是一个很有希望的突破。相信，随着人工智能技术的不断发展，机器人将越来越多地被用于执行各种任务。

相关素材整理于《为机器人装"大脑" 谷歌发布RT-2大模型》一文