时隔六年,OpenAI再次发布开源模型gpt-oss-120b,全网狂欢

一、gpt-oss开源模型

奥特曼发布了两款开源模型gpt-oss-120b 和 gpt-oss-20b。

oss是 Open Source(开源) 的缩写。这意味着OpenAI打算把这款引擎的"设计图纸"和"核心零件"公之于众!

就像可口可乐公开了他们的配方,任何人都可以根据这个配方去尝试制作自己的可乐,甚至进行改良,开发出"樱桃味"或者"香草味"的可乐。

谁给你的勇气?难产的GPT-5,还是贵如黄金的Claude Opus 4.1?

120b,这两个数字和字母代表了模型的"尺寸"和"马力"。

这里的"b"是"Billion"(十亿),指的是模型的参数数量。数量越多,通常意味着模型更聪明、知识更渊博、能力更强。

gpt-oss-120b (1200亿参数模型)的性能非常接近甚至可能媲美当前顶尖的闭源大模型,能处理非常复杂的推理、创作和对话任务。

gpt-oss-20b (200亿参数模型),虽然参数量小一些,但200亿参数的规模已经远超很多市面上的开源模型,对于绝大多数任务来说都绰绰有余。

二、开源模型的里程碑突破

OpenAI 的开源模型 GPT-OSS-120b 正在打破付费与开源的性能鸿沟。

💪 全方位接近顶级水平

  • Codeforces 编程:2622 分,表现超越所有其他开源模型
  • MMLU 学术测试:90% 准确率,仅比 o3 低 3.4%
  • HLE人类终极考试:19% 的准确率,甚至超过了 OpenAI 自家的顶级付费模型o4-mini(17.7%)
  • AIME 数学竞赛:97.9% 准确率,与 o3 仅差 0.8%

三、主要更新和特点

1、全新架构

两个模型均采用 Transformer 架构,结合混合专家(Mixture-of-Experts, MoE)设计,通过仅激活部分参数来提高效率。以下是具体参数对比:

模型 总参数量 每次激活参数 内存需求 上下文窗口 基准测试对比
gpt-oss-120b 1170 亿 51 亿 80GB 128,000 令牌 接近 o4-mini,19% 在 Humanity's Last Exam
gpt-oss-20b 210 亿 36 亿 16GB 或更多 128,000 令牌 类似 o3-mini,数学和编码任务表现突出

gpt-oss-120b:设计用于生产环境和高推理需求任务,如复杂数学问题、编码和 STEM 领域知识。它在核心推理基准测试中接近 OpenAI 的 o4-mini 模型表现,特别是在 Codeforces、MMLU、HLE 和 TauBench 上表现优于 o3-mini,并在 HealthBench、AIME 2024 和 2025 上超过 o4-mini。需要 80GB 内存,适合在单高性能 GPU(如 H100)上运行。

gpt-oss-20b:针对低延迟和本地化或专业化用例设计,可在边缘设备上运行,仅需 16GB 内存,适合消费级硬件如笔记本电脑或手机。其性能与 o3-mini 相当,尤其在数学和编码任务上表现突出,适合快速迭代和本地推理。

2、架构创新

  1. 内置链式思考(CoT)能力,提供完整的推理过程,便于调试和增强用户对输出的信任。
  2. 工具使用能力,包括函数调用、网页搜索、Python 代码执行等代理功能,增强了自动化和集成能力。
  3. 媲美付费模型的上下文长度,128,000 令牌的上下文长度支持处理超长输入或对话,显著优于许多现有模型。
  4. 采用 Apache 2.0 许可证,完全开源,可商用

3、兼容性

完全兼容OpenAI的API接口,所以如果你之前用过他们的闭源模型,切换起来很顺手。它们是纯文本模型,不处理图像或声音,但速度快、延迟低,适合实时应用。

四、gpt-oss-120b大战Qwen3 Thinking

GPT-OSS作为OpenAI刚开源的模型,最大亮点就是推理能力强。它能像人类一样"展示思考过程",不只给答案,还会解释怎么得出的。

Twitter知名博主Akshay Pachaar第一时间做了一个测试,对比了GPT-OSS和目前开源社区中表现优秀的推理模型Qwen3 Thinking。

通过这种对比测试,开发者可以了解GPT-OSS在复杂逻辑推理任务上的实际表现,判断是否适合自己的应用场景。

国内直接使用gpt-oss-120b

谷歌浏览器访问:www.nezhasoft.cloud

私信哪吒,备注体验ai,领取体验码。

还包含了ChatGPT4o、o4-mini-high、o3、GPT4.5、GPT4.1、Claude Sonnet 4、Gemini 2.5 Pro、Grok4、DeepSeek R1 0528等模型。

五、gpt-oss-120b性能实测

1、写作

全国二卷作文题目:"梦的赠予"

材料内容: "昨夜闲潭梦落花""我欲因之梦吴越""铁马冰河入梦来"......梦往往以一种独特的方式呈现我们的感受和期冀,为我们打开更浩瀚的天空。我们也常常向别人讲述自己的梦,用文字记录自己的梦,以行动实现自己的梦。

如果有一天,我们能够将梦赠予他人......

写作要求: 以上材料引发了你怎样的联想和思考?请写一篇文章。要求选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

2、读取文件

读取文件内容,总结一份学术论文大纲,通俗易懂,2000字,中文

3、编码

用户在秒杀页面疯狂点击"立即购买",系统必须高效且线程安全地减少商品库存,防止超卖。如何在高并发场景下安全扣减库存?

相关推荐
机器之心2 小时前
时代2025 AI百人榜出炉:任正非、梁文锋、王兴兴、彭军、薛澜等入选,华人影响力爆棚
人工智能·openai
机器之心2 小时前
谢赛宁回忆七年前OpenAI面试:白板编程、五小时会议,面完天都黑了
人工智能·openai
Json_2 小时前
使用springboot开发-AI智能体平台管理系统,统一管理各个平台的智能体并让智能体和AI语音设备通信,做一个属于自己的小艾同学~
人工智能·spring boot·openai
机器之心10 小时前
元石科技正式发布问小白5,性能直追GPT-5
人工智能·openai
XinZong1 天前
【OpenAI】获取OpenAI API Key的多种方式全攻略:多模型API入门到精通,再到详解教程!
aigc·openai·ai编程
机器之心1 天前
AAAI-26投稿量爆炸:近3万篇论文,2万来自中国,评审系统都快崩了
人工智能·openai
新智元1 天前
刚刚,清华姚班校友陈丹琦加入 Thinking Machines!和北大翁荔做同事
人工智能·openai
新智元1 天前
刚刚,全球 AI 百强榜发布!ChatGPT 稳坐第一,DeepSeek 第三,前 50 有 22 个来自中国
人工智能·openai
MarkHD1 天前
AI提示词30天入门培训计划
人工智能·chatgpt
溯源0061 天前
【deepseek问答记录】:chatGPT的参数数量和上下文长度有关系吗?
人工智能·深度学习·chatgpt