OpenAI最新大模型曝光:剑指多模态,GPT-4之后最大升级

大模型之争,又卷起来了。

据 The information 爆料称,OpenAI 即将推出多模态模型 GPT-vision。

如果消息为真,这将是 OpenAI 在 GPT-4 之后推出的最大更新。

另一边,谷歌的多模态模型进展也在最近传出,为的就是能和 OpenAI 抗衡。

目前为止,OpenAI 还没有对爆料中的传闻做出回应,但此前发布过多模态模型测试。

CEO 奥特曼在回应有关 GPT-5 的传闻时,也暗示过 GPT-4"正在增强"。

究竟谁能更胜一筹,还得让子弹再飞一会儿。

不能让 Google 抢了先

我们先回到 OpenAI,被爆料的多模态模型将搭载什么样的功能呢?

首先是图像内容识别,比如根据手绘草图生成网页代码、输出可视化图表的文本分析等。

另一方面则是图像生成,通过简单的文本生成绘画、logo 或表情包。

虽然 OpenAI 没有对这次的爆料做出回应,但做多模态模型这件事本身只是个时间问题。

3 月份,OpenAI 在发布 GPT-4 时,就曾推出了一个多模态 GPT 的预览版本。

当时,OpenAI 把 DEMO 提供给了研究帮助视障群体的机构 Be My Eyes。

除了这家机构之外,就再也没有人见过 OpenAI 的多模态模型是什么样子了。

在此之后,这个多模态模型更是杳无音讯。

唯一和图像有点关系的,就是 GPT-4 的升级版代码解释器(后改名为高级数据分析)可以处理一些图片任务。

但这是通过调用 Python 库实现的,而且也达不到 AI 中图像识别的程度,和多模态模型更是不沾边了。

有说法称 GPT-vision 迟迟没有推出的原因可能是对安全的担忧,担心被用于破解验证码和人脸识别系统。

直到这次 Google 多模态模型 Gemini 的消息传出。

安全问题有没有解决不得而知,但也许 OpenAI 是真的急了,不能任由谷歌超越,才有了模型发布的传闻。

另据爆料,OpenAI 还在准备从头开始开发一个名为 Gobi 的多模态模型,不过训练还未开始。

那么,谷歌这边的情况又是怎样的呢?

Gemini 来势汹汹

来势汹汹的 Gemini,让网友直言其或将成为游戏规则的改变者。

甚至有媒体夸张一些地说将有机会取代 GPT-4。

Gemini 主要由谷歌 DeepMind 团队开发。谷歌 CEO 皮查伊介绍,Gemini 集成了多种技术,支持同时输出文本和图像,还可以使用工具和 API。

据悉,Gemini 吸取了很多来自 AlphaGo 的经验教训,包括强化学习和树搜索技术。

而且,凭借着拥有 YouTube 这一得天独厚的优势,海量的训练数据可以说是唾手可得。

实际上,Google 也一直把 OpenAI 视为竞争对手。

为了和 ChatGPT 较量,Google 此前已经在 Bard 中加入过图像识别功能,但并未改变 ChatGPT 的地位。

但这次推出的 Gemini,OpenAI 也感到害怕了。

尽管竞争激烈,有一点倒是让谷歌和 OpenAI 不谋而合。

那就是,把模型的能力变成真金白银。

谷歌计划的 Gemini 提供方式是通过其 Google Cloud Vertex AI 云服务平台进行,预期价格为每个用户每月 30 美元。

这一做法预计将成为谷歌新的收入来源,尤其是针对企业客户。

而 OpenAI 这边,也已经开始通过金融服务等各种应用程序将 GPT-4 变为现金。

此次多模态的角逐究竟鹿死谁手,我们拭目以待。

参考链接:

1\][www.theinformation.com/articles/op...](https://link.juejin.cn?target=https%3A%2F%2Fwww.theinformation.com%2Farticles%2Fopenai-hustles-to-beat-google-to-launch-multimodal-llm "https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm") \[2\][www.bigtechwire.com/2023/09/18/...](https://link.juejin.cn?target=https%3A%2F%2Fwww.bigtechwire.com%2F2023%2F09%2F18%2Fopenai-is-ready-to-take-on-googles-gemini-with-gpt-vision%2F "https://www.bigtechwire.com/2023/09/18/openai-is-ready-to-take-on-googles-gemini-with-gpt-vision/") --- **完** --- **「AIGC + 垂直领域社群」** **招募中!** 欢迎关注 AIGC 的伙伴们加入 AIGC + 垂直领域社群,一起学习、探索、创新 AIGC! 请备注您想加入的垂直领域「教育」或「广告营销」,加入 AIGC 人才社群请备注「人才」\&「姓名 - 公司 - 职位」。 ![图片](https://file.jishuzhan.net/article/1704076943499988993/b84be0def92a4938b4be719f598ae617.webp) **点这里👇关注我,记得标星哦~** **一键三连「分享」、「点赞」和「在看」** **科技前沿进展日日相见 \~** ![图片](https://file.jishuzhan.net/article/1704076943499988993/9f28c273a9c2476daae7018edc985d96.svg+xml)

相关推荐
得帆云低代码10 小时前
什么是AI网关?AI网关如何为企业私有化部署筑防
openai
阿里云大数据AI技术10 小时前
OpenSearch 视频 RAG 实践
数据库·人工智能·llm
前端小盆友11 小时前
从零实现一个GPT 【React + Express】--- 【3】解析markdown,处理模型记忆
gpt·react.js
大模型开发11 小时前
零基础打造AI智能体实战教学(10)----零基础用Coze打造短视频自动洗稿工作流
llm·agent·coze
Georgewu11 小时前
【AI大模型入门指南】机器学习入门详解
aigc·openai
商汤万象开发者13 小时前
懒懒笔记 | 课代表带你梳理【RAG课程 19:基于知识图谱的RAG】
llm
俞乾13 小时前
Context Engineering(上下文工程)是 AI Agent 成功的关键吗?
openai·ai编程
字节跳动视频云技术团队14 小时前
ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军
llm·aigc·音视频开发
AI大模型15 小时前
COZE实战部署(二)—— 创建Coze应用
程序员·llm·coze
聚客AI15 小时前
大模型学习进阶路线图:从Prompt到预训练的四阶段全景解析
人工智能·llm·掘金·日新计划