o3-pro 正式推出!说声 “嗨” 就花了 80 美元,思考 1+1 用时 16 分钟

OpenAI 深夜放大招,正式推出 "最新最强版" 推理模型 o3-pro!

而且同一时间,o3 模型降价 80% 不降智。

官方测评结果显示,在专家评估中,所有人一致更偏爱 o3-pro 而非 o3 的回答。

此外,o3-pro 也一举超越 o3、o1-pro,成为当前最擅长数学、科学和编程的 OpenAI 模型。

OpenAI CEO 奥特曼也第一时间激动表示:

这真是太聪明了!我第一次看到它相对于 o3 的胜率时,简直不敢相信。

目前 o3-pro 已取代 o1-pro,面向 ChatGPT 的 Pro 和 Team 用户开放,Enterprise 和 Edu 用户将在下周获得使用权限。

而对开发者来说,o3-pro 已经可以通过 API 接入:

每百万输入 tokens 收费 20 美元_(约合人民币 143 元),每百万输出 tokens 收费 80 美元(约合人民币 574 元)_。

有多贵呢?

温馨提醒,据称一句简单的 "嗨" 就花了网友 80 美元(doge)。

或许 OpenAI 也意识到这个价格确实有点贵,所以另一边赶紧宣布 o3 降价 80%。

o3 降价 80% 不降智

官网显示,o3 的最新 API 价格如下:

每百万输入 tokens 收费 2 美元,每百万输出 tokens 收费 8 美元。

对比 o1-pro 下降了 80% 以上,不仅是 o3-pro 的 1/10,而且和 GPT-4o_(每百万输入 / 输出分别为 2.5 美元和 10 美元)_基本持平。

至于降价原因,明面上的说法是 OpenAI 对推理服务架构进行了全面优化。

就是说,虽然 o3 和 o3-pro 底层模型相同,但由于推理更高效,所以价格自然就下调了。

不过,就在奥特曼对这一价格 "沾沾自喜" 时,关于 o3**"是否真的没有降智"** 却陷入了争议。

网友们也是相当直白,在奥特曼这条推文底下直接表达了怀疑:

甚至有博主以亲身经历_(暂无法确定真实性)_出来发声,认为 o3 在实测中变笨了。

OpenAI 降价并非出于慈善......

然而这一说法也遭到了其他网友的反驳,总体来看目前对峙双方并未就这一争议拿出实质性证据

虽然争议尚未讨论出具体结果,但一些关于 o3-pro 的测试结果已经新鲜出炉。

和开头所提一致,官方在更严格的 "4/4 可靠性" 评估中也验证了 o3-pro 尤为擅长数学、科学和编程。

p.s. 这项评估需要 o3-pro 在四次尝试中 (而不仅仅是一次,pass@1)正确回答问题~

不过官方也多次提醒,由于 o3-pro 可以使用工具,因此响应时间通常比 o1-pro 更长

我们建议将其用于对可靠性要求更高的棘手问题,等待几分钟是值得的。

这也和一众网友实测下来的感受相符,o3-pro 确实变强了,能够解决一些其他模型无法答对的问题,不过由于响应变慢,价格也是真贵。

HyperWriteAI CEO 让它思考 "1+1=?",结果往往需要耗时 1 分钟以上_(第一次问甚至用时 16 分钟)_。

当然,这也恰好代表了 o3-pro 的错误打开方式。

不论是官方建议还是一些好的网友实测结果,都说明 o3-pro 更适合挑战一些有难度、有价值的问题

宾大教授 Ethan Mollick 分享了一个其他模型都曾铩羽而归的问题:从 "SPACE" 到"EARTH"制作一个单词阶梯。

这个游戏需要模型从 "SPACE" 到"EARTH",每次只改变一个字母,单词真实有效且长度不变_(右侧为解释 "为什么这是一个合法的英语单词")_。

而 o3-pro 成功完成了挑战,并且这不是模型通过联网搜索得到的答案_(即通过推理得到)_。

另一位生物医学科学家也分享了与 o3-pro 合作开发免疫系统的例子。

作为对比,他也向 o3 提出了同一任务_(要求先识别出人类天然免疫系统的关键局限性)_,结果表明 o3-pro 更胜一筹。

o3 列出的前五个问题虽然强调了类似的重要问题,但后两个问题无需彻底重构免疫系统即可解决。

相比之下,o3-pro 不仅提出了更多限制,而且它所指出的每一个限制都是极其关键、内在的问题,需要彻底重构。

整体而言,通过 ARC-AGI 测试结果可以看到,o3-pro 在高难任务上表现略好,但提升幅度不大,且成本随难度上升。

p.s. 这项测试主要考验 AI 在面对新问题时的抽象推理和问题解决能力~

奥特曼发小作文

这是我最后一次在没有任何人工智能帮助的情况下写这样的文章了。

有意思的是,同一时间奥特曼也火速发了一篇小作文------

题目为《The Gentle Singularity(温和的奇点)》,来探讨 AI 发展对人类社会的影响。

其主要观点包括下面这些:

1、2025 年,我们迎来了能够真正进行认知工作的智能 Agent,编写计算机代码的方式将彻底改变。2026 年,我们很可能会看到能产生原创见解的系统;2027 年,或许会出现能在现实世界中执行任务的机器人

2、到了 2030 年代,智慧和能源------即想法及实现想法的能力------将变得极其丰富。这两者长期以来一直是人类进步的基本限制;如果智慧和能源变得充足_(加上良好的治理)_,理论上我们可以实现一切。

3、随着数据中心的生产逐渐自动化,智能的成本最终应该会接近电力成本。(很多人关心 ChatGPT 每次查询用多少能量;平均每次查询大约耗电 0.34 瓦时,大概相当于烤箱运行一秒多一点,或高效灯泡使用几分钟。此外,每次查询大约用水 0.000085 加仑,约等于十五分之一茶匙。)

4、相比 AI,人类有一个长期且重要的优势:我们天生在意他人,以及他人怎么想、怎么做,而对机器却没什么感情。

5、从相对论的角度看,奇点是一点点发生的,融合是逐步进行的。我们正攀登那条技术指数增长的长弧线;向前看总觉得是陡峭的垂直,向后看则像是平缓的线,但其实它是一条平滑的曲线。(回想 2020 年,如果那时我们说 2025 年会接近 AGI,听起来会很疯狂,但对比过去五年所发生的一切,也许现在的预测不那么疯狂了。)

6、我们_(整个行业,不只是 OpenAI)_正在为世界构建一个大脑,它的极限将取决于我们的好点子。

7、OpenAI 如今做的事情很多,但最根本的身份仍是一个超级智能研究公司

BTW,奥特曼最新推文有透露,原计划中的公开权重模型要推迟了。

嗯,又一个期货(doge)~

完整小作文地址如下:
blog.samaltman.com/the-gentle-...

参考链接:

1\][x.com/OpenAI/stat...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FOpenAI%2Fstatus%2F1932530409684005048 "https://x.com/OpenAI/status/1932530409684005048") \[2\][x.com/OpenAIDevs/...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FOpenAIDevs%2Fstatus%2F1932532777565446348 "https://x.com/OpenAIDevs/status/1932532777565446348") \[3\][x.com/aidan_mclau...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Faidan_mclau%2Fstatus%2F1932507602216497608 "https://x.com/aidan_mclau/status/1932507602216497608") \[4\][x.com/sama/status...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fsama%2Fstatus%2F1932547247243505924 "https://x.com/sama/status/1932547247243505924") --- **完** ---

相关推荐
YoungHong19926 小时前
MiniMax-M2 全方位配置手册:覆盖 Claude Code, Cursor, Cline 等工具
ai编程
人工智能训练6 小时前
如何在 Ubuntu 22.04 中安装 Docker 引擎和 Linux 版 Docker Desktop 桌面软件
linux·运维·服务器·数据库·ubuntu·docker·ai编程
数据智能老司机10 小时前
Spring AI 实战——提交用于生成的提示词
spring·llm·ai编程
数据智能老司机11 小时前
Spring AI 实战——评估生成结果
spring·llm·ai编程
该用户已不存在12 小时前
免费的 Vibe Coding 助手?你想要的Gemini CLI 都有
人工智能·后端·ai编程
一只柠檬新14 小时前
当AI开始读源码,调Bug这件事彻底变了
android·人工智能·ai编程
用户40993225021215 小时前
Vue 3中watch侦听器的正确使用姿势你掌握了吗?深度监听、与watchEffect的差异及常见报错解析
前端·ai编程·trae
机器之心17 小时前
全球第二、国内第一!最强文本的文心5.0 Preview一手实测来了
人工智能·openai
yaocheng的ai分身17 小时前
【转载】我如何用Superpowers MCP强制Claude Code在编码前进行规划
ai编程·claude
重铸码农荣光17 小时前
从逐行编码到「氛围编程」:Trae 带你进入 AI 编程新纪元
ai编程·trae·vibecoding