o3-pro 正式推出!说声 “嗨” 就花了 80 美元,思考 1+1 用时 16 分钟

OpenAI 深夜放大招,正式推出 "最新最强版" 推理模型 o3-pro!

而且同一时间,o3 模型降价 80% 不降智。

官方测评结果显示,在专家评估中,所有人一致更偏爱 o3-pro 而非 o3 的回答。

此外,o3-pro 也一举超越 o3、o1-pro,成为当前最擅长数学、科学和编程的 OpenAI 模型。

OpenAI CEO 奥特曼也第一时间激动表示:

这真是太聪明了!我第一次看到它相对于 o3 的胜率时,简直不敢相信。

目前 o3-pro 已取代 o1-pro,面向 ChatGPT 的 Pro 和 Team 用户开放,Enterprise 和 Edu 用户将在下周获得使用权限。

而对开发者来说,o3-pro 已经可以通过 API 接入:

每百万输入 tokens 收费 20 美元_(约合人民币 143 元),每百万输出 tokens 收费 80 美元(约合人民币 574 元)_。

有多贵呢?

温馨提醒,据称一句简单的 "嗨" 就花了网友 80 美元(doge)。

或许 OpenAI 也意识到这个价格确实有点贵,所以另一边赶紧宣布 o3 降价 80%。

o3 降价 80% 不降智

官网显示,o3 的最新 API 价格如下:

每百万输入 tokens 收费 2 美元,每百万输出 tokens 收费 8 美元。

对比 o1-pro 下降了 80% 以上,不仅是 o3-pro 的 1/10,而且和 GPT-4o_(每百万输入 / 输出分别为 2.5 美元和 10 美元)_基本持平。

至于降价原因,明面上的说法是 OpenAI 对推理服务架构进行了全面优化。

就是说,虽然 o3 和 o3-pro 底层模型相同,但由于推理更高效,所以价格自然就下调了。

不过,就在奥特曼对这一价格 "沾沾自喜" 时,关于 o3**"是否真的没有降智"** 却陷入了争议。

网友们也是相当直白,在奥特曼这条推文底下直接表达了怀疑:

甚至有博主以亲身经历_(暂无法确定真实性)_出来发声,认为 o3 在实测中变笨了。

OpenAI 降价并非出于慈善......

然而这一说法也遭到了其他网友的反驳,总体来看目前对峙双方并未就这一争议拿出实质性证据

虽然争议尚未讨论出具体结果,但一些关于 o3-pro 的测试结果已经新鲜出炉。

和开头所提一致,官方在更严格的 "4/4 可靠性" 评估中也验证了 o3-pro 尤为擅长数学、科学和编程。

p.s. 这项评估需要 o3-pro 在四次尝试中 (而不仅仅是一次,pass@1)正确回答问题~

不过官方也多次提醒,由于 o3-pro 可以使用工具,因此响应时间通常比 o1-pro 更长

我们建议将其用于对可靠性要求更高的棘手问题,等待几分钟是值得的。

这也和一众网友实测下来的感受相符,o3-pro 确实变强了,能够解决一些其他模型无法答对的问题,不过由于响应变慢,价格也是真贵。

HyperWriteAI CEO 让它思考 "1+1=?",结果往往需要耗时 1 分钟以上_(第一次问甚至用时 16 分钟)_。

当然,这也恰好代表了 o3-pro 的错误打开方式。

不论是官方建议还是一些好的网友实测结果,都说明 o3-pro 更适合挑战一些有难度、有价值的问题

宾大教授 Ethan Mollick 分享了一个其他模型都曾铩羽而归的问题:从 "SPACE" 到"EARTH"制作一个单词阶梯。

这个游戏需要模型从 "SPACE" 到"EARTH",每次只改变一个字母,单词真实有效且长度不变_(右侧为解释 "为什么这是一个合法的英语单词")_。

而 o3-pro 成功完成了挑战,并且这不是模型通过联网搜索得到的答案_(即通过推理得到)_。

另一位生物医学科学家也分享了与 o3-pro 合作开发免疫系统的例子。

作为对比,他也向 o3 提出了同一任务_(要求先识别出人类天然免疫系统的关键局限性)_,结果表明 o3-pro 更胜一筹。

o3 列出的前五个问题虽然强调了类似的重要问题,但后两个问题无需彻底重构免疫系统即可解决。

相比之下,o3-pro 不仅提出了更多限制,而且它所指出的每一个限制都是极其关键、内在的问题,需要彻底重构。

整体而言,通过 ARC-AGI 测试结果可以看到,o3-pro 在高难任务上表现略好,但提升幅度不大,且成本随难度上升。

p.s. 这项测试主要考验 AI 在面对新问题时的抽象推理和问题解决能力~

奥特曼发小作文

这是我最后一次在没有任何人工智能帮助的情况下写这样的文章了。

有意思的是,同一时间奥特曼也火速发了一篇小作文------

题目为《The Gentle Singularity(温和的奇点)》,来探讨 AI 发展对人类社会的影响。

其主要观点包括下面这些:

1、2025 年,我们迎来了能够真正进行认知工作的智能 Agent,编写计算机代码的方式将彻底改变。2026 年,我们很可能会看到能产生原创见解的系统;2027 年,或许会出现能在现实世界中执行任务的机器人

2、到了 2030 年代,智慧和能源------即想法及实现想法的能力------将变得极其丰富。这两者长期以来一直是人类进步的基本限制;如果智慧和能源变得充足_(加上良好的治理)_,理论上我们可以实现一切。

3、随着数据中心的生产逐渐自动化,智能的成本最终应该会接近电力成本。(很多人关心 ChatGPT 每次查询用多少能量;平均每次查询大约耗电 0.34 瓦时,大概相当于烤箱运行一秒多一点,或高效灯泡使用几分钟。此外,每次查询大约用水 0.000085 加仑,约等于十五分之一茶匙。)

4、相比 AI,人类有一个长期且重要的优势:我们天生在意他人,以及他人怎么想、怎么做,而对机器却没什么感情。

5、从相对论的角度看,奇点是一点点发生的,融合是逐步进行的。我们正攀登那条技术指数增长的长弧线;向前看总觉得是陡峭的垂直,向后看则像是平缓的线,但其实它是一条平滑的曲线。(回想 2020 年,如果那时我们说 2025 年会接近 AGI,听起来会很疯狂,但对比过去五年所发生的一切,也许现在的预测不那么疯狂了。)

6、我们_(整个行业,不只是 OpenAI)_正在为世界构建一个大脑,它的极限将取决于我们的好点子。

7、OpenAI 如今做的事情很多,但最根本的身份仍是一个超级智能研究公司

BTW,奥特曼最新推文有透露,原计划中的公开权重模型要推迟了。

嗯,又一个期货(doge)~

完整小作文地址如下:
blog.samaltman.com/the-gentle-...

参考链接:

1\][x.com/OpenAI/stat...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FOpenAI%2Fstatus%2F1932530409684005048 "https://x.com/OpenAI/status/1932530409684005048") \[2\][x.com/OpenAIDevs/...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FOpenAIDevs%2Fstatus%2F1932532777565446348 "https://x.com/OpenAIDevs/status/1932532777565446348") \[3\][x.com/aidan_mclau...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Faidan_mclau%2Fstatus%2F1932507602216497608 "https://x.com/aidan_mclau/status/1932507602216497608") \[4\][x.com/sama/status...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fsama%2Fstatus%2F1932547247243505924 "https://x.com/sama/status/1932547247243505924") --- **完** ---

相关推荐
小璐乱撞10 小时前
从原理到实战:基于SpringAI的RAG应用探索
spring·ai编程
志辉AI编程10 小时前
我终究还是放弃ClaudeCode,转战DeepSeek 新工具
ai编程
量子位10 小时前
实测豆包 1.6,最火玩法 all in one!Seedance 登顶视频生成榜一,豆包 APP 全量上线
ai编程·豆包marscode
志辉AI编程10 小时前
数据需求全部交给 Claude 搞定?结果我还是 vibe coding 3 小时写了个系统
ai编程
coco012411 小时前
打造趣味策略游戏:OXO 网页游戏开发实战
后端·ai编程
chentao10612 小时前
5-工具调用 vs RAG-你喜欢主动还是被动?
ai编程
Captaincc12 小时前
从 AI Coding 到 AI Development:TRAE 亮相 2025 火山引擎 FORCE 原动力大会
ai编程·trae
Captaincc12 小时前
字节跳动技术副总裁洪定坤:TRAE 想做 AI Development
ai编程
掘金一周12 小时前
CSS 实现九宫格缩放(9-slice scaling 不变形拉伸)| 掘金一周 6.12
前端·人工智能·openai
星际码仔15 小时前
揭秘Claude系统提示词:这才是Artifacts的正确打开方式
ai编程·claude