OpenAI最新大模型曝光:剑指多模态,GPT-4之后最大升级

大模型之争,又卷起来了。

据 The information 爆料称,OpenAI 即将推出多模态模型 GPT-vision。

如果消息为真,这将是 OpenAI 在 GPT-4 之后推出的最大更新。

另一边,谷歌的多模态模型进展也在最近传出,为的就是能和 OpenAI 抗衡。

目前为止,OpenAI 还没有对爆料中的传闻做出回应,但此前发布过多模态模型测试。

CEO 奥特曼在回应有关 GPT-5 的传闻时,也暗示过 GPT-4"正在增强"。

究竟谁能更胜一筹,还得让子弹再飞一会儿。

不能让 Google 抢了先

我们先回到 OpenAI,被爆料的多模态模型将搭载什么样的功能呢?

首先是图像内容识别,比如根据手绘草图生成网页代码、输出可视化图表的文本分析等。

另一方面则是图像生成,通过简单的文本生成绘画、logo 或表情包。

虽然 OpenAI 没有对这次的爆料做出回应,但做多模态模型这件事本身只是个时间问题。

3 月份,OpenAI 在发布 GPT-4 时,就曾推出了一个多模态 GPT 的预览版本。

当时,OpenAI 把 DEMO 提供给了研究帮助视障群体的机构 Be My Eyes。

除了这家机构之外,就再也没有人见过 OpenAI 的多模态模型是什么样子了。

在此之后,这个多模态模型更是杳无音讯。

唯一和图像有点关系的,就是 GPT-4 的升级版代码解释器(后改名为高级数据分析)可以处理一些图片任务。

但这是通过调用 Python 库实现的,而且也达不到 AI 中图像识别的程度,和多模态模型更是不沾边了。

有说法称 GPT-vision 迟迟没有推出的原因可能是对安全的担忧,担心被用于破解验证码和人脸识别系统。

直到这次 Google 多模态模型 Gemini 的消息传出。

安全问题有没有解决不得而知,但也许 OpenAI 是真的急了,不能任由谷歌超越,才有了模型发布的传闻。

另据爆料,OpenAI 还在准备从头开始开发一个名为 Gobi 的多模态模型,不过训练还未开始。

那么,谷歌这边的情况又是怎样的呢?

Gemini 来势汹汹

来势汹汹的 Gemini,让网友直言其或将成为游戏规则的改变者。

甚至有媒体夸张一些地说将有机会取代 GPT-4。

Gemini 主要由谷歌 DeepMind 团队开发。谷歌 CEO 皮查伊介绍,Gemini 集成了多种技术,支持同时输出文本和图像,还可以使用工具和 API。

据悉,Gemini 吸取了很多来自 AlphaGo 的经验教训,包括强化学习和树搜索技术。

而且,凭借着拥有 YouTube 这一得天独厚的优势,海量的训练数据可以说是唾手可得。

实际上,Google 也一直把 OpenAI 视为竞争对手。

为了和 ChatGPT 较量,Google 此前已经在 Bard 中加入过图像识别功能,但并未改变 ChatGPT 的地位。

但这次推出的 Gemini,OpenAI 也感到害怕了。

尽管竞争激烈,有一点倒是让谷歌和 OpenAI 不谋而合。

那就是,把模型的能力变成真金白银。

谷歌计划的 Gemini 提供方式是通过其 Google Cloud Vertex AI 云服务平台进行,预期价格为每个用户每月 30 美元。

这一做法预计将成为谷歌新的收入来源,尤其是针对企业客户。

而 OpenAI 这边,也已经开始通过金融服务等各种应用程序将 GPT-4 变为现金。

此次多模态的角逐究竟鹿死谁手,我们拭目以待。

参考链接:

1\][www.theinformation.com/articles/op...](https://link.juejin.cn?target=https%3A%2F%2Fwww.theinformation.com%2Farticles%2Fopenai-hustles-to-beat-google-to-launch-multimodal-llm "https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm") \[2\][www.bigtechwire.com/2023/09/18/...](https://link.juejin.cn?target=https%3A%2F%2Fwww.bigtechwire.com%2F2023%2F09%2F18%2Fopenai-is-ready-to-take-on-googles-gemini-with-gpt-vision%2F "https://www.bigtechwire.com/2023/09/18/openai-is-ready-to-take-on-googles-gemini-with-gpt-vision/") --- **完** --- **「AIGC + 垂直领域社群」** **招募中!** 欢迎关注 AIGC 的伙伴们加入 AIGC + 垂直领域社群,一起学习、探索、创新 AIGC! 请备注您想加入的垂直领域「教育」或「广告营销」,加入 AIGC 人才社群请备注「人才」\&「姓名 - 公司 - 职位」。 ![图片](https://file.jishuzhan.net/article/1704076943499988993/b84be0def92a4938b4be719f598ae617.webp) **点这里👇关注我,记得标星哦~** **一键三连「分享」、「点赞」和「在看」** **科技前沿进展日日相见 \~** ![图片](https://file.jishuzhan.net/article/1704076943499988993/9f28c273a9c2476daae7018edc985d96.svg+xml)

相关推荐
周周爱喝粥呀11 分钟前
LLM 中的自回归模型与非自回归模型:GPT 和 BERT 的区别
人工智能·gpt·ai·回归
共绩算力12 分钟前
DeepSeek V3.2 迈向 GPT-5 级别性能的路径:稀疏注意力、大规模强化学习与上下文重用
人工智能·gpt·共绩算力
百***243716 分钟前
GPT-5.2 vs DeepSeek-V3.2 全维度对比:一步API适配下的研发选型指南
gpt
视觉&物联智能30 分钟前
【杂谈】-多智能体系统的效能悖论:协作优势的认知边界
ai·llm·agent·智能体·人工 智能
百***24371 小时前
GPT-5.2与DeepSeek-V3.2选型指南:一步API通用下的全维度技术对比
gpt
维度攻城狮1 小时前
科研提速!Zotero Awesome GPT 搭配本地 Ollama 模型使用指南
gpt·zotero·ollama·awesome gpt
AI架构师易筋3 小时前
多模态 LLM 与本地多模态检索 PoC:从原理到工程落地(图片 / 视频关键帧 / LaTeX 公式)
人工智能·llm·多模态·多模态llm
且去填词15 小时前
DeepSeek API 深度解析:从流式输出、Function Calling 到构建拥有“手脚”的 AI 应用
人工智能·python·语言模型·llm·agent·deepseek
EdisonZhou16 小时前
MAF快速入门(11)并行工作流
llm·aigc·agent·.net core
进击的松鼠17 小时前
LangChain 实战 | 快速搭建 Python 开发环境
python·langchain·llm