ChatGPT最新版本“o3”的概要

o3简介

o3于2024年12月20日发布------也就是OpenAI 12天直播的最后一天。目前处于安全性测试阶段。它是o1的继任者,旨在处理更复杂的推理任务。o3特别针对数学、科学和编程等领域进行了优化。

o3在多项基准测试中表现出色。例如,在ARC-AGI基准测试中,它的准确率是o1的三倍,并在Frontier Math测试中超越了其他模型。另外,在SWE-Bench Verified等软件工程测试中也表现出高水平。

名称由来:选择"o3"这个名字是为了避免与英国电信公司O2的商标冲突,OpenAI为避免法律问题,跳过了o2。


o3被视为最接近AGI(通用人工智能)的模型之一,它在推理能力和多任务处理上的表现受到关注。


o3性能测试详情

  • SWE-Bench Verified:这项测试评估软件问题解决能力。o3得分71.7%,大大超过o1的48.9%和o1-preview的41.3%。

  • 竞赛编程(Codeforces):o3在Codeforces平台上达到了2727的等级评分,超过了OpenAI的首席研究员的成绩。

  • ARC-AGI基准测试:o3在这项测试中取得了非常高的分数。在低计算模式下得分为75.7%,高计算模式下达到了87.5%。人类的平均表现为85%。

  • Frontier Math:o3展示了解决数学家需要数天才能完成的问题的能力,得分为25.2%,这相比前最佳成绩(State of the Art, SoTA)的2%有了显著提升。

  • AIME和GPQA Diamond:在这些测试中,o3也展示了性能的巨大飞跃,特别是在GPQA Diamond测试中超过了专家的平均水平。

成本

尽管o3提供了高水平的推理能力,但在高计算模式下每任务的成本非常高,对于像ARC-AGI这样的特殊基准测试,执行一次可能达到数千美元的成本。然而,对于日常使用来说,成本不应如此高昂。

相关推荐
YiYueHuan3 小时前
添加 ChatGPT/Grok/Gemini 到浏览器搜索引擎
搜索引擎·chatgpt·grok
量子位1 天前
ChatGPT 再进化:o1 支持调用 Python 分析数据,网友:已经成为 Copilot 了
人工智能·chatgpt
odoo中国1 天前
Deepseek Chatgpt Kimi 推荐的深度学习书单
人工智能·深度学习·chatgpt·书单·deepseek
hellocode_1 天前
OpenAI API模型ChatGPT各模型功能对比,o1、o1Pro、GPT-4o、GPT-4.5调用次数限制附ChatGPT订阅教程
chatgpt·o1pro使用次数限制·o3pro使用次数限制·chatgpt使用次数·openai模型功能对比·如何订阅使用chatgpt
哪吒编程2 天前
Nature最新报道:分析四大主流AI工具、性能测评、推荐使用场景
chatgpt·claude·deepseek
matlab@com2 天前
ChatGPT课件分享(37页PPT)
chatgpt
佛州小李哥2 天前
深度评测DeepSeek、ChatGPT O1和谷歌Gemini AI应用开发场景 - DeepSeek性能完胜!
人工智能·科技·ai·chatgpt·gemini·ai开发·deepseek
pitt19973 天前
NexLM 开源系列】让 AI 聊天更丝滑:WebSocket 实现流式对话!
websocket·chatgpt·deepseek·see·大模型集成·流式对话
慈云数据4 天前
本地部署类似 ChatGPT 的大模型:基于 Ollama + Open-WebUI
服务器·人工智能·gpt·chatgpt
DaLoong、4 天前
ChatGPT使用经验分享
chatgpt·创业创新