o3、o4-mini重磅发布，多模态+深度思考，再次登顶最强模型

一、o3、o4-mini发布

三天前（4月14号）GPT-4.1发布，说实话，我还没怎么用。

今天（4月17号）凌晨，OpenAI又更新了，这次是o系列深度思考模型o3和o4-mini，是OpenAI迄今为止发布的最智能的模型，开始支持Thinking with Images的全新模式（多模态+深度思考），在这点上，OpenAI是落后于其它厂商的，因为一个月前Claude 3.7 sonnent和Grok3就已经支持了Thinking with Images。

o3和o4-mini首次能够将图像直接整合到思维链中，它们不仅能看到图像，还能通过图像进行思考。

二、多模态最强模型

之前ChatGPT4o支持多模态，也就是上传文件、识别图片、联网实时查询、AI绘画等，o系列模型（o1、o3-mini）支持深度思考。

也就是说现在o3和o4-mini = ChatGPT4o + o1、o3-mini，集大家之所长，模之大者。

ChatGPT Plus、Pro和Team用户将在型号选择器中看到o3、o4-mini和o4-mini-high，而不是o1、o3 -mini和o3 -mini-high。

那么，这次的最新模型o3和o4-mini都更新了啥？

支持Thinking with Images的全新模式（多模态+深度思考）
在编程、数学、科学、推理、视觉感知等领域推动了技术边界。
在分析图像、图表和图形等视觉任务上表现尤为出色，引入全新概念"缩放图像"。
可以完全访问ChatGPT内的工具，以及通过API中的函数调用访问用户自定义工具。
支持联网实时查询
变的更高效，可以说是快速版的DeepSearch，想的不但多而且快。
提高了指令遵循，回答更加自然、人性化
OpenAI内部训练了一个推理LLM监视器，在安全性方面，实现了重大升级，添加了新的拒绝基准（例如，指令层次，越狱）。

OpenAI o4-mini是一种更小的模型，针对快速、经济高效的推理进行了优化，说人话就是成本更低、能力更强了，o4-mini支持比o3高得多的使用限制。

三、o4-mini对标o3-mini，o3对标o1

1、表现与推理成本的关系（o1 VS o3）

左侧是美国高中数学邀请赛2025测试，o3系列（黄色线）在所有计算资源等级下都明显优于o1系列，o3 (high)：性能达约0.87，成本约 $0.5 ； o 1 ( h i g h ) ：性能约 0.79 ，但成本高达约 0.5；o1 (high)：性能约0.79，但成本高达约$ 0.5；o1(high)：性能约0.79，但成本高达约1.0。

右侧是GPQA科学测试性能，o3系列再次全面领先，o3 (high)：性能达约0.83，成本约 $0.3 ； o 1 ( h i g h ) ：性能约 0.77 ，成本约 0.3；o1 (high)：性能约0.77，成本约$ 0.3；o1(high)：性能约0.77，成本约0.4。