OpenAI最新大模型曝光:剑指多模态,GPT-4之后最大升级

大模型之争,又卷起来了。

据 The information 爆料称,OpenAI 即将推出多模态模型 GPT-vision。

如果消息为真,这将是 OpenAI 在 GPT-4 之后推出的最大更新。

另一边,谷歌的多模态模型进展也在最近传出,为的就是能和 OpenAI 抗衡。

目前为止,OpenAI 还没有对爆料中的传闻做出回应,但此前发布过多模态模型测试。

CEO 奥特曼在回应有关 GPT-5 的传闻时,也暗示过 GPT-4"正在增强"。

究竟谁能更胜一筹,还得让子弹再飞一会儿。

不能让 Google 抢了先

我们先回到 OpenAI,被爆料的多模态模型将搭载什么样的功能呢?

首先是图像内容识别,比如根据手绘草图生成网页代码、输出可视化图表的文本分析等。

另一方面则是图像生成,通过简单的文本生成绘画、logo 或表情包。

虽然 OpenAI 没有对这次的爆料做出回应,但做多模态模型这件事本身只是个时间问题。

3 月份,OpenAI 在发布 GPT-4 时,就曾推出了一个多模态 GPT 的预览版本。

当时,OpenAI 把 DEMO 提供给了研究帮助视障群体的机构 Be My Eyes。

除了这家机构之外,就再也没有人见过 OpenAI 的多模态模型是什么样子了。

在此之后,这个多模态模型更是杳无音讯。

唯一和图像有点关系的,就是 GPT-4 的升级版代码解释器(后改名为高级数据分析)可以处理一些图片任务。

但这是通过调用 Python 库实现的,而且也达不到 AI 中图像识别的程度,和多模态模型更是不沾边了。

有说法称 GPT-vision 迟迟没有推出的原因可能是对安全的担忧,担心被用于破解验证码和人脸识别系统。

直到这次 Google 多模态模型 Gemini 的消息传出。

安全问题有没有解决不得而知,但也许 OpenAI 是真的急了,不能任由谷歌超越,才有了模型发布的传闻。

另据爆料,OpenAI 还在准备从头开始开发一个名为 Gobi 的多模态模型,不过训练还未开始。

那么,谷歌这边的情况又是怎样的呢?

Gemini 来势汹汹

来势汹汹的 Gemini,让网友直言其或将成为游戏规则的改变者。

甚至有媒体夸张一些地说将有机会取代 GPT-4。

Gemini 主要由谷歌 DeepMind 团队开发。谷歌 CEO 皮查伊介绍,Gemini 集成了多种技术,支持同时输出文本和图像,还可以使用工具和 API。

据悉,Gemini 吸取了很多来自 AlphaGo 的经验教训,包括强化学习和树搜索技术。

而且,凭借着拥有 YouTube 这一得天独厚的优势,海量的训练数据可以说是唾手可得。

实际上,Google 也一直把 OpenAI 视为竞争对手。

为了和 ChatGPT 较量,Google 此前已经在 Bard 中加入过图像识别功能,但并未改变 ChatGPT 的地位。

但这次推出的 Gemini,OpenAI 也感到害怕了。

尽管竞争激烈,有一点倒是让谷歌和 OpenAI 不谋而合。

那就是,把模型的能力变成真金白银。

谷歌计划的 Gemini 提供方式是通过其 Google Cloud Vertex AI 云服务平台进行,预期价格为每个用户每月 30 美元。

这一做法预计将成为谷歌新的收入来源,尤其是针对企业客户。

而 OpenAI 这边,也已经开始通过金融服务等各种应用程序将 GPT-4 变为现金。

此次多模态的角逐究竟鹿死谁手,我们拭目以待。

参考链接:

1\][www.theinformation.com/articles/op...](https://link.juejin.cn?target=https%3A%2F%2Fwww.theinformation.com%2Farticles%2Fopenai-hustles-to-beat-google-to-launch-multimodal-llm "https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm") \[2\][www.bigtechwire.com/2023/09/18/...](https://link.juejin.cn?target=https%3A%2F%2Fwww.bigtechwire.com%2F2023%2F09%2F18%2Fopenai-is-ready-to-take-on-googles-gemini-with-gpt-vision%2F "https://www.bigtechwire.com/2023/09/18/openai-is-ready-to-take-on-googles-gemini-with-gpt-vision/") --- **完** --- **「AIGC + 垂直领域社群」** **招募中!** 欢迎关注 AIGC 的伙伴们加入 AIGC + 垂直领域社群,一起学习、探索、创新 AIGC! 请备注您想加入的垂直领域「教育」或「广告营销」,加入 AIGC 人才社群请备注「人才」\&「姓名 - 公司 - 职位」。 ![图片](https://file.jishuzhan.net/article/1704076943499988993/b84be0def92a4938b4be719f598ae617.webp) **点这里👇关注我,记得标星哦~** **一键三连「分享」、「点赞」和「在看」** **科技前沿进展日日相见 \~** ![图片](https://file.jishuzhan.net/article/1704076943499988993/9f28c273a9c2476daae7018edc985d96.svg+xml)

相关推荐
董厂长3 小时前
langchain :记忆组件混淆概念澄清 & 创建Conversational ReAct后显示指定 记忆组件
人工智能·深度学习·langchain·llm
G皮T6 小时前
【人工智能】ChatGPT、DeepSeek-R1、DeepSeek-V3 辨析
人工智能·chatgpt·llm·大语言模型·deepseek·deepseek-v3·deepseek-r1
雷羿 LexChien7 小时前
从 Prompt 管理到人格稳定:探索 Cursor AI 编辑器如何赋能 Prompt 工程与人格风格设计(上)
人工智能·python·llm·编辑器·prompt
堆栈future8 小时前
上下文工程(Context-Engineering): AI应用核心技术剖析
llm·ai编程·mcp
亚里随笔9 小时前
L0:让大模型成为通用智能体的强化学习新范式
人工智能·llm·大语言模型·rlhf
吴佳浩10 小时前
Python入门指南-番外-LLM-Fingerprint(大语言模型指纹):从技术视角看AI开源生态的边界与挑战
python·llm·mcp
吴佳浩11 小时前
Python入门指南-AI模型相似性检测方法:技术原理与实现
人工智能·python·llm
新智元11 小时前
毕业 7 年,身价破亿!清北 AI 天团血洗硅谷,奥特曼被逼分天价股份
人工智能·openai
新智元11 小时前
刚刚,苹果大模型团队负责人叛逃 Meta!华人 AI 巨星 + 1,年薪飙至 9 位数
人工智能·openai
掉鱼的猫12 小时前
Java MCP 实战:构建跨进程与远程的工具服务
java·openai·mcp