OpenAI最新大模型曝光：剑指多模态，GPT-4之后最大升级

大模型之争，又卷起来了。

据 The information 爆料称，OpenAI 即将推出多模态模型 GPT-vision。

如果消息为真，这将是 OpenAI 在 GPT-4 之后推出的最大更新。

另一边，谷歌的多模态模型进展也在最近传出，为的就是能和 OpenAI 抗衡。

目前为止，OpenAI 还没有对爆料中的传闻做出回应，但此前发布过多模态模型测试。

CEO 奥特曼在回应有关 GPT-5 的传闻时，也暗示过 GPT-4"正在增强"。

究竟谁能更胜一筹，还得让子弹再飞一会儿。

不能让 Google 抢了先

我们先回到 OpenAI，被爆料的多模态模型将搭载什么样的功能呢？

首先是图像内容识别，比如根据手绘草图生成网页代码、输出可视化图表的文本分析等。

另一方面则是图像生成，通过简单的文本生成绘画、logo 或表情包。

虽然 OpenAI 没有对这次的爆料做出回应，但做多模态模型这件事本身只是个时间问题。

3 月份，OpenAI 在发布 GPT-4 时，就曾推出了一个多模态 GPT 的预览版本。

当时，OpenAI 把 DEMO 提供给了研究帮助视障群体的机构 Be My Eyes。

除了这家机构之外，就再也没有人见过 OpenAI 的多模态模型是什么样子了。

在此之后，这个多模态模型更是杳无音讯。

唯一和图像有点关系的，就是 GPT-4 的升级版代码解释器（后改名为高级数据分析）可以处理一些图片任务。

但这是通过调用 Python 库实现的，而且也达不到 AI 中图像识别的程度，和多模态模型更是不沾边了。

有说法称 GPT-vision 迟迟没有推出的原因可能是对安全的担忧，担心被用于破解验证码和人脸识别系统。

直到这次 Google 多模态模型 Gemini 的消息传出。

安全问题有没有解决不得而知，但也许 OpenAI 是真的急了，不能任由谷歌超越，才有了模型发布的传闻。

另据爆料，OpenAI 还在准备从头开始开发一个名为 Gobi 的多模态模型，不过训练还未开始。

那么，谷歌这边的情况又是怎样的呢？

Gemini 来势汹汹

来势汹汹的 Gemini，让网友直言其或将成为游戏规则的改变者。

甚至有媒体夸张一些地说将有机会取代 GPT-4。

Gemini 主要由谷歌 DeepMind 团队开发。谷歌 CEO 皮查伊介绍，Gemini 集成了多种技术，支持同时输出文本和图像，还可以使用工具和 API。

据悉，Gemini 吸取了很多来自 AlphaGo 的经验教训，包括强化学习和树搜索技术。

而且，凭借着拥有 YouTube 这一得天独厚的优势，海量的训练数据可以说是唾手可得。

实际上，Google 也一直把 OpenAI 视为竞争对手。

为了和 ChatGPT 较量，Google 此前已经在 Bard 中加入过图像识别功能，但并未改变 ChatGPT 的地位。

但这次推出的 Gemini，OpenAI 也感到害怕了。

尽管竞争激烈，有一点倒是让谷歌和 OpenAI 不谋而合。

那就是，把模型的能力变成真金白银。

谷歌计划的 Gemini 提供方式是通过其 Google Cloud Vertex AI 云服务平台进行，预期价格为每个用户每月 30 美元。

这一做法预计将成为谷歌新的收入来源，尤其是针对企业客户。

而 OpenAI 这边，也已经开始通过金融服务等各种应用程序将 GPT-4 变为现金。

此次多模态的角逐究竟鹿死谁手，我们拭目以待。

参考链接：

$1$ www.theinformation.com/articles/op...

$2$ www.bigtechwire.com/2023/09/18/...

--- 完 ---

「AIGC + 垂直领域社群」

招募中！

欢迎关注 AIGC 的伙伴们加入 AIGC + 垂直领域社群，一起学习、探索、创新 AIGC！

请备注您想加入的垂直领域「教育」或「广告营销」，加入 AIGC 人才社群请备注「人才」&「姓名 - 公司 - 职位」。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~