ChatGPT最新版本“o3”的概要

单丽尔2025-01-06 9:06

o3简介

o3于2024年12月20日发布------也就是OpenAI 12天直播的最后一天。目前处于安全性测试阶段。它是o1的继任者，旨在处理更复杂的推理任务。o3特别针对数学、科学和编程等领域进行了优化。

o3在多项基准测试中表现出色。例如，在ARC-AGI基准测试中，它的准确率是o1的三倍，并在Frontier Math测试中超越了其他模型。另外，在SWE-Bench Verified等软件工程测试中也表现出高水平。

名称由来：选择"o3"这个名字是为了避免与英国电信公司O2的商标冲突，OpenAI为避免法律问题，跳过了o2。

o3被视为最接近AGI（通用人工智能）的模型之一，它在推理能力和多任务处理上的表现受到关注。

SWE-Bench Verified：这项测试评估软件问题解决能力。o3得分71.7%，大大超过o1的48.9%和o1-preview的41.3%。
竞赛编程（Codeforces）：o3在Codeforces平台上达到了2727的等级评分，超过了OpenAI的首席研究员的成绩。
ARC-AGI基准测试：o3在这项测试中取得了非常高的分数。在低计算模式下得分为75.7%，高计算模式下达到了87.5%。人类的平均表现为85%。
Frontier Math：o3展示了解决数学家需要数天才能完成的问题的能力，得分为25.2%，这相比前最佳成绩（State of the Art, SoTA）的2%有了显著提升。
AIME和GPQA Diamond：在这些测试中，o3也展示了性能的巨大飞跃，特别是在GPQA Diamond测试中超过了专家的平均水平。

尽管o3提供了高水平的推理能力，但在高计算模式下每任务的成本非常高，对于像ARC-AGI这样的特殊基准测试，执行一次可能达到数千美元的成本。然而，对于日常使用来说，成本不应如此高昂。