Transformer一作来卷多模态!学术图表也能看懂,100毫秒极速响应|免费试玩

最近多模态大模型是真热闹啊。

这不,Transformer 一作携团队也带来了新作,一个规模为 80 亿参数的多模态大模型 Fuyu-8B

而且发布即开源,模型权重在 Hugging Face 上可以看到。

该模型具备强大的图像理解能力。

照片、图表、PDF、界面 UI 都不在话下。

能从这么一张复杂的食物网里理清楚各个生物之间的关系。

提问:道格拉斯冷杉针叶缺失了,哪种生物会灭绝?

回答:红树田鼠。

也能从密密麻麻的连线图里找到,权游 "小指头" 扮演者 Aidan Gillen 出演过 HBO 两个系列的剧。

看得懂专业图表,可以帮你找到想要的数据。

提问:(左图)24、32、33、42 这组数字序列中丢了哪个数?

回答:29

一张包含多个图表的 PDF 也难不倒它。提问:加州哪里的工作前景不错?

Fuyu-8B 可以准确找到对应的信息块,并给出正确答案 "洛杉矶"。

而且 Fuyu-8B 的处理速度很快,研究团队表示 100 毫秒内可反馈大图像处理结果。

同时它还很 "轻巧",不仅模型规模没超百亿,还没有使用图像编码器

这让它能更快速进行训练和推理,并支持处理任意大小图像

Hugging Face 联创兼 CTO 看了都有点激动,表示假如自己还没有创业,那么这个项目会启发他做点什么。

该成果来自 Transformer 一作 Ashish Vaswani 所在创业公司 Adept。

目前该模型已开源,demo 可线上试玩。

现在在 Hugging Face 上即可体验 Fuyu-8B 的能力。

Demo 中提供了两种任务。

  • 看图问答
  • 图像概述

可以上传一张图片然后对大模型进行提问。

或者是直接让它看图然后描述图片内容。

大模型的常识水平不错,比如问它一道甜点是怎么做的?

它给出的回答是:

这道甜点是用一层层的酥皮做成的,上面点缀着开心果和帕玛森奶酪。

测试了下中文能力,发现它能理解中文,但是 "习惯性" 用英文回答。

模型采用了一种简单的架构:纯解码器 Transformer

它没有图像编码器。图像块(image patch)绕过 embedding lookup,即在嵌入矩阵中查找特定输入的过程,直接映射到 Transformer 的第一层。

这种架构使得模型能支持任意图像分辨率。

研究团队删除了图像特定位置嵌入,并按扫描线顺序(raster-scan order)输入尽可能多的图像 token。

通过一个特殊的图像转换行符号,模型能知道在什么时候断行。

由此模型在训练时可以使用任意大小的图像。

这种架构也更进一步简化了模型的训练和推理过程。

这种架构模式也引起了不少网友的关注,有人就表示,之前总觉得大模型图像理解能力差是因为使用了固定大小的 patch。

但 Fuyu-8B 反驳了他的这一想法。

实验结果显示 Fuyu-8B 在多个任务中性能优于 PaLM-e-12B 和 QWEN-VL(10B)。

研究团队还表示,刷榜不是他们本次工作的最终目的,所以模型没有进行优化。

他们构建这个大模型的真正目的是为了提升自家产品的能力。

Adept 团队致力于打造一个 AI Copilot。

这个 Copilot 能够理解用户屏幕上的内容(比如网页、PPT、PDF、图表等),并能辅助人类快速完成工作。

这就要求大模型需要能理解环境信息,同时可以代替人类进行操作。换言之,需要大模型能具备超强的图像理解能力。

所以这也是为啥 Fuyu-8B 会很强调对 UI 的理解能力。

比如它能理解你打开的窗口,以及窗口内的信息。

带来这一新工作的团队是 Adept。

这是一家由 Transformer 一作、前 OpenAI 工程副总裁等业内大佬共同创立的 AI 公司。

它成立于 2022 年 4 月。目前已完成 B 轮融资,总融资额达 4.15 亿美元,公司估值超过 10 亿美元。

首席科学家是 Ashish Vaswani。他是《Attention is all you need》的第一作者,平常看论文时经常出现的 "(Vaswani et al., 2017)" 就是这位大佬。

他博士毕业于南加州大学,在谷歌大脑工作已有 5 年。

Transformer 的另一位作者 Niki Parmar 也加入了该团队。

她在印度上完大学后,同样在南加州大学读完硕士,在谷歌工作了近 7 年。

创始人兼 CEO David Luan,是前 OpenAI 加州实验室工程副总裁,参与过 GPT-2、GPT-3、CLIP、DALL-E 等模型的开发,后来加入谷歌,曾任谷歌大脑大模型研究的 Director。

Adept 致力于打造一个 AI Copilot。

团队在去年推出的首项工作,就颇有 AutoGPT 那感觉。

他们打造的 Action Transformer(ACT-1),会使用浏览器、Excel 等,能理解人类给出的命令并完成相应操作。

比如想要在 Excel 表格中加上利润、利润率,只需把这段话输入给 AI,它就能自己在对应行列创建公式完成任务了。

同时该团队还非常关注开源工作。

今年先后推出的两项工作 Persimmon-8B 和 Fuyu-8B,都已对外开源。

Demo 试玩:
huggingface.co/spaces/adep...

参考链接:

[1]www.adept.ai/blog/fuyu-8...

[2]twitter.com/AdeptAILabs...

[3]twitter.com/julien_c/st...

[4]twitter.com/main_horse/...

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关推荐
三花AI1 天前
好家伙,OpenAI 第一的位置屁股还没坐热呢,谷歌 Gemini 就重夺竞技场榜首了
资讯
蚝油菜花11 天前
今日 AI 简报|百度推出检索增强的文生图技术、开源表格处理大模型、蛋白质结构预测、3D 生成、短视频生成、PDF 翻译工具
人工智能·开源·资讯
蚝油菜花1 个月前
王炸!Anthropic 推出全新模型 Claude 3.5 Haiku,首发支持计算机使用功能!
人工智能·llm·资讯
三花AI1 个月前
Playground V3:图形设计模型的文字处理新标杆
开源·资讯
万界星空科技1 个月前
万界星空科技MES系统与各大系统的集成
产品·运营·资讯
战场小包3 个月前
OpenAI动荡,将走向何方、GPT5或许将近、毒舌AI轻松破防网友、最新版 GPT-4o AI 模型得满分 | AGI掘金视界周刊第 4 期
人工智能·资讯
字节跳动开源4 个月前
字节跳动开源多云多集群管理引擎 KubeAdmiral v1.0.0 发布!
开源·github·资讯
战场小包4 个月前
AI视界周刊第 2 期:里程碑 Llama 3.1 开源、AI训AI,越训越傻、AI 搜索重燃战火
人工智能·资讯
栩栩云生4 个月前
[240726] Mistral AI 发布新一代旗舰模型 | Node.js 合并 TypeScript 文件执行提案
typescript·node.js·资讯
赵侠客4 个月前
使用Hutool要注意了!升级到6.0后你调用的所有方法都将报错
java·后端·资讯