o3、o4-mini重磅发布,多模态+深度思考,再次登顶最强模型

一、o3、o4-mini发布

三天前(4月14号)GPT-4.1发布,说实话,我还没怎么用。

今天(4月17号)凌晨,OpenAI又更新了,这次是o系列深度思考模型o3和o4-mini,是OpenAI迄今为止发布的最智能的模型,开始支持Thinking with Images的全新模式(多模态+深度思考),在这点上,OpenAI是落后于其它厂商的,因为一个月前Claude 3.7 sonnent和Grok3就已经支持了Thinking with Images。

o3和o4-mini首次能够将图像直接整合到思维链中,它们不仅能看到图像,还能通过图像进行思考。

二、多模态最强模型

之前ChatGPT4o支持多模态,也就是上传文件、识别图片、联网实时查询、AI绘画等,o系列模型(o1、o3-mini)支持深度思考。

也就是说现在o3和o4-mini = ChatGPT4o + o1、o3-mini,集大家之所长,模之大者。

ChatGPT Plus、Pro和Team用户将在型号选择器中看到o3、o4-mini和o4-mini-high,而不是o1、o3 -mini和o3 -mini-high。

那么,这次的最新模型o3和o4-mini都更新了啥?

  1. 支持Thinking with Images的全新模式(多模态+深度思考)
  2. 在编程、数学、科学、推理、视觉感知等领域推动了技术边界。
  3. 在分析图像、图表和图形等视觉任务上表现尤为出色,引入全新概念"缩放图像"。
  4. 可以完全访问ChatGPT内的工具,以及通过API中的函数调用访问用户自定义工具。
  5. 支持联网实时查询
  6. 变的更高效,可以说是快速版的DeepSearch,想的不但多而且快。
  7. 提高了指令遵循,回答更加自然、人性化
  8. OpenAI内部训练了一个推理LLM监视器,在安全性方面,实现了重大升级,添加了新的拒绝基准(例如,指令层次,越狱)。

OpenAI o4-mini是一种更小的模型,针对快速、经济高效的推理进行了优化,说人话就是成本更低、能力更强了,o4-mini支持比o3高得多的使用限制。

三、o4-mini对标o3-mini,o3对标o1

1、表现与推理成本的关系(o1 VS o3)

左侧是美国高中数学邀请赛2025测试,o3系列(黄色线)在所有计算资源等级下都明显优于o1系列,o3 (high):性能达约0.87,成本约 <math xmlns="http://www.w3.org/1998/Math/MathML"> 0.5 ; o 1 ( h i g h ) :性能约 0.79 ,但成本高达约 0.5;o1 (high):性能约0.79,但成本高达约 </math>0.5;o1(high):性能约0.79,但成本高达约1.0。

右侧是GPQA科学测试性能,o3系列再次全面领先,o3 (high):性能达约0.83,成本约 <math xmlns="http://www.w3.org/1998/Math/MathML"> 0.3 ; o 1 ( h i g h ) :性能约 0.77 ,成本约 0.3;o1 (high):性能约0.77,成本约 </math>0.3;o1(high):性能约0.77,成本约0.4。

2、表现与推理成本的关系(o3-mini VS o4-mini)

左侧是美国高中数学邀请赛2025测试,o4-mini (high)在右上角表现最佳,准确率达到约0.92,但推理成本最高($0.6)。

右侧是GPQA科学测试性能,o3-mini (high)为 0.85,o4-mini (high) 达到 0.9。意味着 o4-mini 在处理任务时更可靠,尤其是在高性能情况下。

总结一句话,在大多数实际使用中,o3和o4-mini也将分别比o1和o3 -mini更智能、更便宜。

四、针对模型的旋转多边形和小球挑战

这一挑战既能考察模型的编程能力,也能检验模型对物理法则的了解,迅速成为测试新模型的基准测试。

o3和o4-mini-high在这一挑战上的表现完美,甚至不相上下。无论是多边形的旋转还是小球的运动,都与现实接近。

它们的表现已经超越了被认为是现在最强的模型Gemini 2.5 Pro与DeepSeek R1。

国内直接使用最新o3、o4-mini、GPT4.1、GPT-4.5、满血ChatGPT4o、满血DeepSeek R1、马斯克Grok 3

✅️谷歌浏览器直接访问

ChatGPT使用地址:www.nezhasoft.cloud

Claude使用地址:claude.nezhagpt.cloud

一、纯原版ChatGPT、Claude

✅️官网原生页面

✅️真实Team会员账号

二、技术支持

✔️支持最新o3、o4-mini、GPT-4.1、GPT-4.5、满血ChatGPT-4o、o1 pro

✔️支持Claude 3.7 Sonnent

✔️支持满血DeepSeek R1、Grok 3

✔️无需魔法、个人独享

三、搜索GPT(支持100+AI插件)、自定义插件

支持ChatGPT所有插件,可创建自己的ChatGPT插件,使用朋友分享的自定义插件。

例如最强编程插件Code Copilot、AI绘画插件DALL-E、论文专属Consensus、搜索文献插件Scholar GPT。

相关推荐
狗胜16 分钟前
二等兵·甘: 当 Agent 开始替长官做决定,真正的分水岭是可恢复能力
openai
DigitalOcean17 分钟前
GPU对比:MI350X、MI325X、MI300X、H200、H100
llm·aigc
悦心墨客2 小时前
OpenClaw 实战:5 个核心 Skill 详解与提示词指南
aigc
用户8150916072602 小时前
2026最新OpenClaw(龙虾ai)安装配置API思路与推荐方案
aigc
奋斗的小鸟11115 小时前
文件格式转换新革命:智能编辑与高效工作流
aigc·openai·ai开发·访答
小碗细面6 小时前
Anthropic 官方指南:构建 Skills 的秘密都在这里
aigc·ai编程
狗胜19 小时前
二等兵甘观察日记 #011:当多 Agent 开始审视自己的‘沉默决策’
openai
冬奇Lab20 小时前
OpenClaw 源码精读(3):Agent 执行引擎——AI 如何「思考」并与真实世界交互?
人工智能·aigc
量子位1 天前
全球首份大模型业绩报!MiniMax预判2026三大超级PMF,AI平台公司启程了
aigc·ai编程