2023年03月09日_谷歌视觉语言模型PaLM-E的介绍

自从最近微软凭借OpenAI

和ChatGPT火了一把之后呢

老对手Google就总想着扳回一局

之前发布了硬刚ChatGPT的Bard

但是没想到翻车了

弄巧成拙


所以呢Google这一周又发了个大招

发布了史上最大的视觉语言模型PaLM-E

这个模型有多夸张呢

参数量高达5,620亿

ChatGTP-3的三倍

这个模型结合了5,400亿参数的PaML模型

以及220亿参数的ViT模型


不仅可以理解图像

还能理解和生成语言

执行各种复杂的机器人指令

而且重点是无需重新训练


PaLM-E可以直接分析

来自机器人摄像头的数据

无需对场景进行预处理

而且实验结果证明

模型的正迁移能力也相当强大


接下来我们看几个PaLM-E的demo视频

相信你一定会有通用AI

很快就要到来的感觉


第一个demo

基于机器人摄像头的视觉反馈

任务是从抽屉里把薯片拿给我

注意这个过程中还加入了对抗性干扰

即便实验人员多次移动薯片

机器人仍然能够重新抓取

而且最后还把抽屉给合上了

并且把薯片交给实验人员

注意这个视频是4倍速播放的

所以实际的速度应该并不快


第二个demo

让机器人把绿色的星星拿过来

这个绿色的星星

机器人之前没有直接接触过的物体


第三个demo

让机器人按照不同的颜色

将积木块放到不同的

角落


可以看到

机器人可以很好的规划

和执行长期任务

并且详细分解说明了

机器人的每个步骤是如何规划的


这个demo是让机器人将剩余的积木块

移到已有的积木组中

PaLM-E会将它分解成多个低级的策略

比如将黄色六边形移动到绿色心形旁

把蓝色三角形移动到积木组中

而下一个demo

是让机器人

将海洋色的积木块放到一起

可以看到

机器人也可以准确识别出

蓝色的积木块


最后

实验人员还演示了两个泛化的示例

一个是将红色积木块推到咖啡杯中

这个数据集

只包含了3个带有咖啡杯的演示数据

并且没有一个含有红色的积木块


另一个示例

是让机器人将绿色的积木块推给乌龟

即使机器人以前从来没有见过乌龟

它也能够成功的执行任务


零样本推理方面

PaLM-E可以在给定图像的情况下

讲一个笑话

并展示了包括感知

基于视觉的对话规划在内的能力

对于多张图的关系

PaLM-E也整的很明白

比如图1中的哪个物品在图2中没有


PaLM-E还可以

在给定带有手写数字的图像后

执行数学运算

比如对于这张餐馆手写的菜单

PaLM-E可以直接算出

两张披萨需要多少钱


谷歌的研究人员计划未来将探索PaLM-E

在现实世界中的更多应用

例如家庭自动化或者工业机器人

也希望PaLM-E

能够激发更多关于多模态AI的应用

相关推荐
努力还债的学术吗喽18 分钟前
2021 IEEE【论文精读】用GAN让音频隐写术骗过AI检测器 - 对抗深度学习的音频信息隐藏
人工智能·深度学习·生成对抗网络·密码学·音频·gan·隐写
明道云创始人任向晖21 分钟前
20个进入实用阶段的AI应用场景(零售电商业篇)
人工智能·零售
数据智研34 分钟前
【数据分享】大清河(大庆河)流域上游土地利用
人工智能
聚客AI1 小时前
🔷告别天价算力!2025性价比最高的LLM私有化训练路径
人工智能·llm·掘金·日新计划
天波信息技术分享1 小时前
AI 云电竞游戏盒子:从“盒子”到“云-端-芯”一体化竞技平台的架构实践
人工智能·游戏·架构
用户5191495848451 小时前
curl --continue-at 参数异常行为分析:文件覆盖与删除风险
人工智能·aigc
用户84913717547161 小时前
joyagent智能体学习(第1期):项目概览与架构解析
人工智能·llm·agent
是乐谷1 小时前
阿里云杭州 AI 产品法务岗位信息分享(2025 年 8 月)
java·人工智能·阿里云·面试·职场和发展·机器人·云计算
用户5191495848451 小时前
初识ARIA时我希望有人告诉我的事:Web无障碍开发指南
人工智能·aigc
AI知识管理1 小时前
AI知识管理产品落地设计方案
人工智能·产品