ChatGPT最新版本“o3”的概要

o3简介

o3于2024年12月20日发布------也就是OpenAI 12天直播的最后一天。目前处于安全性测试阶段。它是o1的继任者,旨在处理更复杂的推理任务。o3特别针对数学、科学和编程等领域进行了优化。

o3在多项基准测试中表现出色。例如,在ARC-AGI基准测试中,它的准确率是o1的三倍,并在Frontier Math测试中超越了其他模型。另外,在SWE-Bench Verified等软件工程测试中也表现出高水平。

名称由来:选择"o3"这个名字是为了避免与英国电信公司O2的商标冲突,OpenAI为避免法律问题,跳过了o2。


o3被视为最接近AGI(通用人工智能)的模型之一,它在推理能力和多任务处理上的表现受到关注。


o3性能测试详情

  • SWE-Bench Verified:这项测试评估软件问题解决能力。o3得分71.7%,大大超过o1的48.9%和o1-preview的41.3%。

  • 竞赛编程(Codeforces):o3在Codeforces平台上达到了2727的等级评分,超过了OpenAI的首席研究员的成绩。

  • ARC-AGI基准测试:o3在这项测试中取得了非常高的分数。在低计算模式下得分为75.7%,高计算模式下达到了87.5%。人类的平均表现为85%。

  • Frontier Math:o3展示了解决数学家需要数天才能完成的问题的能力,得分为25.2%,这相比前最佳成绩(State of the Art, SoTA)的2%有了显著提升。

  • AIME和GPQA Diamond:在这些测试中,o3也展示了性能的巨大飞跃,特别是在GPQA Diamond测试中超过了专家的平均水平。

成本

尽管o3提供了高水平的推理能力,但在高计算模式下每任务的成本非常高,对于像ARC-AGI这样的特殊基准测试,执行一次可能达到数千美元的成本。然而,对于日常使用来说,成本不应如此高昂。

相关推荐
见合八方13 小时前
AI大模型入门教程:从零开始理解ChatGPT背后的技术
ai·chatgpt·大模型·llm·入门教程
东北洗浴王子讲AI13 小时前
GPT-5.4在自动化测试与质量保障中的创新应用实践
人工智能·gpt·自然语言处理·chatgpt
Joshkhh14 小时前
2026年国内三大AI工具横向测评:Gemini 3.1 Pro、ChatGPT 5.4、Claude
人工智能·chatgpt
东北洗浴王子讲AI1 天前
GPT-5.4辅助算法设计与优化:从理论到实践的系统方法
人工智能·gpt·算法·chatgpt
Agent产品评测局1 天前
企业生产报工自动化落地,数据采集全流程实现方案 —— 2026制造业数字化转型深度选型指南
运维·人工智能·ai·chatgpt·自动化
小鹿软件办公1 天前
OpenAI 面向高频用户推出全新 100 美元档 ChatGPT Pro 套餐
人工智能·chatgpt
斯坦SteinY1 天前
github年度热门开源项目
ai·chatgpt·开源·github·排名·热门项目
健康人猿1 天前
ChatGPT 推出了 Pro 5x,Codex使用额度又会做出什么新调整?
人工智能·ai·chatgpt·codex·奥特曼
Agent产品评测局2 天前
互联网行业自动化平台选型,运营全流程提效指南:2026企业级智能体架构与实战全解析
运维·人工智能·ai·chatgpt·架构·自动化
小真zzz2 天前
搜极星:你的免费“AI内容验真器”
大数据·人工智能·ai·chatgpt·seo·geo