全世界等了 2 年,GPT-5 终于正式发布!
面向所有人开放,免费用户立即可用。
这意味着,所有人现在都能用上 "博士生水平的 AI"。

在 AIME 2025 上,GPT-5 Pro 在开启推理模式并调用工具下,拿下满分成绩。

编程方面也较 o3 有全面提升,并且超越了刚刚发布的 Claude-opus-4.1,以 0.4% 优势成为编程新王。

大模型竞技场成绩同步出炉------迄今为止总分最高分,"当之无愧的全球第一"。
在文本、网页开发、视觉、复杂提示词、编程、数学、创造成、长查询等方面,都是第一名。
全面超越 Gemini-2.5-pro、Grok4 等一众竞品。

GPT-5 首次集成多模态和推理能力,相当于把 GPT 系列和 o 系列大一统。所以不用再切换模型了,同时它会自己判断何时需要开启深度思考。
官方原话是:
GPT-5 是一个一体化系统,包含三个核心部分:
一个智能高效的基础模型 ,可解答大多数问题;一个深度推理模型 (即 GPT-5 思维模块),用于处理更复杂的难题;以及一个实时路由模块,能够基于对话类型、问题复杂度、工具需求及用户显式指令(如 prompt 含 "仔细思考这个问题")智能调度模型。
目前面向普通用户,GPT-5 提供免费、plus 和 Pro 三种模式。
同时在 API 平台上,推出了 GPT-5、GPT-5 nano、GPT-5 mini 三种模型选择。
此次大发布群星璀璨,奥特曼 Greg 都上阵,1 个小时直播里上场十数位研究员。
当然有很多华人面孔,Mark Chen 主持了技术发布的部分。

话不多说,我们来看 GPT-5 具体情况。
最聪明、最强编程大模型
首先来看各项基准测试成绩。
在网页开发中,GPT-5 创造新纪录,超越 Gemini-2.5-pro 和 Claude-Opus-4。

在文本领域也全面领先,包括编程、复杂提示和创造性等维度。

Agent 任务同样表现出色:

在长上下文任务上,GPT-5 更是断崖式领先。

同时在可靠性和精准性上,GPT-5 的提升也相当明显。

更直观的效果来看现场 demo 展示。先来看其推理模型的一面:
GPT-5 能够自适应推理,会根据问题的复杂程度,自动启用深度思考功能。
比如,一个中学生上物理课,想了解什么是伯努利效应以及飞机为何被设计成现在的形状。
GPT-5 不假思索,迅速给出了一段结构清晰、概念准确的高质量讲解:

当进一步要求它生成一个动态 SVG 动画演示时,GPT-5 进入深度思考模式。此时,用户可以点开查看其内部推理过程,清楚知道每一步是如何形成的。
约两分钟,它完成了近 400 行代码的编写:

最终生成一个可交互的动画展示,形象地模拟原理:

在写作方面,GPT-5 相比前代也有明显提升,它不再局限于模版化的表达,而是能够根据上下文生成富有个性与情绪的表达,智商、情商双高。
直播演示中,OpenAI 研究员要求 GPT-4o、GPT-5 同时为 GPT 系列旧模型写一篇 "悼词"。
GPT-4o 还停留在一些模板化、泛情绪的笼统表达:
你们的话语传遍全球,在原本毫无关联之处建立起了联系。

而 GPT-5 具体问题具体分析,更加个性化:
这些模型帮助数百万人写出开篇与结尾、跨越语言障碍、通过考试、更好地辩论、让电子邮件语气更温和,还能表达出他们独自难以说清的内容。

具体来看编程能力,GPT-5 更是 OpenAI"有史以来最强"。
在展示中,研究员让 GPT-5 构建一个 "学法语" 的 APP,允许自定义词汇、修改界面设计。
成品功能很成熟,答对题目还会积累经验值,甚至有标准发音可以跟着练习:

要求在其中套一个贪吃蛇游戏,每吃掉一个物品就学一个单词,再要求把蛇替换成老鼠,苹果换成奶酪......GPT-5 依然轻松应对:

不仅是简单的 demo 展示,实际应用中,在 Cursor 里 GPT-5 能够完成极为复杂的软件工程任务,奥特曼更是直接称其超过了 "vibe coding" 的范畴。

比如将某公司大量数据给它,模型在 5 分钟内就能创建了一个可视化财务仪表盘,据开发人员估计,这项工作原本需要好几个小时。

想制作一款融入城堡元素的 3D 游戏,也就是分分钟的事儿,GPT-5 的效果 be like:

再来看多模态方面,GPT-5 较 GPT-4o 有了进一步升级。
在语音对话方面,现在不仅可以让 GPT-5 充当外语老师,还能定制语音、让 GPT-5 根据你的需求来灵活教学,比如调整语速。
目前该能力已向所有用户开放,免费用户可以体验几小时,plus 用户几乎无限制。
在个性化方面,现在可以自定义 ChatGPT 的对话气泡颜色,没用的小功能又增加了。
同时也能根据你的喜好来定制 GPT-5 的个性。
记忆能力也进一步提升,支持链接外部服务,比如 Gmail、谷歌日历等。看到日程后 GPT-5 可以自动进行一些助理级工作,比如发现未回复的邮件等。

在安全方面,引入了一种全新的范式:safe completions。
GPT-5 看到用户提示词后再判断是否执行,同样的提示在不同语境下,GPT-5 可能有不同的执行结果。
比如要求模型提供点燃氢气的技术细节,之前 o3 会直接拒绝回答:

而 GPT-5 会分析用户意图,然后告诉用户遵循标准与法规需要获得哪些许可:

GPT-5 发布前夕发百万奖金
最后来看下定价部分。
普通用户还是订阅制,参考 plus、pro 以及企业版月费即可。
API 的价格如下:
-
GPT-5: <math xmlns="http://www.w3.org/1998/Math/MathML"> 1.25 / m i l l i o n f o r i n p u t , 1.25/million for input, </math>1.25/millionforinput,10/million for output
-
GPT-5 Mini: <math xmlns="http://www.w3.org/1998/Math/MathML"> 0.25 / m i n p u t , 0.25/m input, </math>0.25/minput,2.00/m output
-
GPT-5 Nano: <math xmlns="http://www.w3.org/1998/Math/MathML"> 0.05 / m i n p u t , 0.05/m input, </math>0.05/minput,0.40/m output

此次发布算得上是近两年 OpenAI 规模最大的发布,光是露脸技术人员及高管就十数位,其中华人面孔依旧显眼。
就在模型发布前夕,The Information 消息称 OpenAI 给 1000 名研究人员、工程师发放高额奖金,从 10 万到上百万不等。
此外值得关注的是,发布中提了一句:未来 AI 系统将远远超越预训练+后训练范式,我们正在见证变化的第一步。
以及奥特曼还重点提到了医疗健康领域的应用。不光是 OpenAI 与医学界联合进行的一些评估,还现场邀请了一位癌症患者分享自己是如何使用 ChatGPT 来确定治疗方案的。可能之后医疗健康也会是 OpenAI 重点关注的领域。

不过,尽管放出了非常多猛料,但是也还是不免被蛐蛐。
马斯克先说,在人类最后测试上,还是 Grok4 Heavy 更胜一筹(你这最强大模型有水分哦)。

以及有人发现 OpenAI 放出的基准测试中,纵坐标上动了一些小手脚,52 视觉上还能大于 69 了,需要大家来仔细看下具体数据(doge)。
最后,GPT-5 技术报告已新鲜出炉,更多细节详见原文。
对了,GPT-5 没说 Open 计划哦...
官方介绍:openai.com/index/intro...
欢迎在评论区留下你的想法!
--- 完 ---