OpenAI发布o3和o4-mini模型:全面工具访问的最强大模型

导语

几天前,OpenAI 发布了最新的o3和o4-mini模型,这些推理模型能够主动使用和结合ChatGPT内的所有工具(包括网页搜索上传文件分析使用Python分析数据深入推理视觉输入 ,甚至生成图像)。这些模型经过训练,能够推理何时以及如何使用工具,以快速生成详细且深思熟虑的答案。o3和o4-mini在学术基准测试和实际任务中的表现大大增强,树立了智能性和实用性的新标准。

要点&看法

个人感觉这次的主要更新关注于以下两点,可能是下一步研究方向

  • 图像推理:首次引入图像直接参与推理,能够处理模糊或低质量的图像并进行推理。
  • 强化学习:模型通过强化学习增强了推理能力,可以更好地理解何时使用工具,进一步提高任务执行能力。当前的学术界一些论文已经能够调用搜索、编写代码等基础工具。

以下是详细介绍内容。

主要变化

  • OpenAI o3 在编程、数学、科学、视觉感知等领域基准测试取得最新SOTA,适用于需要多方面分析且答案不易显现的复杂查询。在视觉任务方面,能够分析图像、图表和图形。在外部专家的评估中,o3在实际任务中的重大错误减少了20%,特别是在编程、商业/咨询和创意构思领域表现出色。
  • OpenAI o4-mini 是一款优化了快速、经济推理的小型模型,尤其在数学、编程和视觉任务中表现卓越。它在2024和2025年AIME数学竞赛中成为最强的基准模型,特别是在有Python解释器的情况下,o4-mini在2025年AIME竞赛中达到了99.5%的首次通过率。虽然有工具访问使得任务更为简单,但o4-mini表现出色,表明它能有效利用可用工具。

强化学习的持续扩展

在开发o3过程中,观察到大规模强化学习表现出"更多计算=更好表现"的趋势 。通过追溯这个扩展路径,进一步提升了训练计算量和推理时间的推理能力,且仍然看到了明显的性能提升。同时,使用强化学习提升了大模型的工具调用能力,有效提升了模型性能表现。

图像思维

这些模型首次能够将图像直接融入思维链条中。它们不仅能看到图像,还能与其一同思考。这使得视觉和文本推理的结合成为可能,表现出色的多模态基准测试。

向智能工具使用迈进

OpenAI o3和o4-mini完全访问ChatGPT中的工具,并通过API调用可以使用自定义工具。这些模型能够推理如何解决问题,并选择合适的工具快速生成详细的答案,通常在一分钟内。

成本效益推理

o3和o4-mini在性能和效率上超过前代模型o1和o3-mini。比如,在2025年AIME数学竞赛中,o3的性能比o1更高,而o4-mini比o3-mini表现更强。

安全性

随着模型能力的提升,在安全性方面做了相应的改进。o3和o4-mini在处理生物风险、恶意软件生成和越狱等领域的安全性上表现出色,并通过强化学习和监控机制应对潜在的危险。

Codex CLI:终端中的前沿推理

OpenAI还推出了一个新的实验项目:Codex CLI,它是一个轻量级的编码代理,可以直接在终端上运行。它最大化了o3和o4-mini等模型的推理能力,通过结合本地代码的访问,实现了多模态推理。

未来展望

OpenAI正在将o系列模型的专门推理能力与GPT系列模型的自然对话能力和工具使用结合起来。未来的模型将支持无缝、自然的对话,并辅以主动的工具使用和高级问题解决能力。

参考

  1. Introducing OpenAI o3 and o4-mini, openai.com/index/intro...
相关推荐
老朋友此林2 小时前
MiniMind:3块钱成本 + 2小时!训练自己的0.02B的大模型。minimind源码解读、MOE架构
人工智能·python·nlp
老马啸西风2 小时前
sensitive-word-admin v2.0.0 全新 ui 版本发布!vue+前后端分离
vue.js·ui·ai·nlp·github·word
十里清风6 小时前
LLM量化方法:ZeroQuant、LLM.int8()、SmoothQuant、GPTQ、AWQ
llm
仙人掌_lz9 小时前
深入理解深度Q网络DQN:基于python从零实现
python·算法·强化学习·dqn·rl
知来者逆20 小时前
在与大语言模型交互中的礼貌现象:技术影响、社会行为与文化意义的多维度探讨
人工智能·深度学习·语言模型·自然语言处理·llm
IT猿手21 小时前
基于 Q-learning 的城市场景无人机三维路径规划算法研究,可以自定义地图,提供完整MATLAB代码
深度学习·算法·matlab·无人机·强化学习·qlearning·无人机路径规划
SHIPKING3931 天前
【Prompt工程—文生图】案例大全
llm·prompt·文生图
水煮蛋不加蛋1 天前
AutoGen 框架解析:微软开源的多人 Agent 协作新范式
人工智能·microsoft·ai·开源·大模型·llm·agent
Two summers ago2 天前
arXiv2025 | TTRL: Test-Time Reinforcement Learning
论文阅读·人工智能·机器学习·llm·强化学习
AI大模型顾潇2 天前
[特殊字符] Milvus + LLM大模型:打造智能电影知识库系统
数据库·人工智能·机器学习·大模型·llm·llama·milvus