时隔六年，OpenAI再次发布开源模型gpt-oss-120b，全网狂欢

一、gpt-oss开源模型

奥特曼发布了两款开源模型gpt-oss-120b 和 gpt-oss-20b。

oss是 Open Source(开源) 的缩写。这意味着OpenAI打算把这款引擎的"设计图纸"和"核心零件"公之于众！

就像可口可乐公开了他们的配方，任何人都可以根据这个配方去尝试制作自己的可乐，甚至进行改良，开发出"樱桃味"或者"香草味"的可乐。

谁给你的勇气？难产的GPT-5，还是贵如黄金的Claude Opus 4.1？

120b，这两个数字和字母代表了模型的"尺寸"和"马力"。

这里的"b"是"Billion"（十亿），指的是模型的参数数量。数量越多，通常意味着模型更聪明、知识更渊博、能力更强。

gpt-oss-120b (1200亿参数模型)的性能非常接近甚至可能媲美当前顶尖的闭源大模型，能处理非常复杂的推理、创作和对话任务。

gpt-oss-20b (200亿参数模型)，虽然参数量小一些，但200亿参数的规模已经远超很多市面上的开源模型，对于绝大多数任务来说都绰绰有余。

二、开源模型的里程碑突破

OpenAI 的开源模型 GPT-OSS-120b 正在打破付费与开源的性能鸿沟。

💪 全方位接近顶级水平

Codeforces 编程：2622 分，表现超越所有其他开源模型
MMLU 学术测试：90% 准确率，仅比 o3 低 3.4%
HLE人类终极考试：19% 的准确率，甚至超过了 OpenAI 自家的顶级付费模型o4-mini（17.7%）
AIME 数学竞赛：97.9% 准确率，与 o3 仅差 0.8%

三、主要更新和特点

1、全新架构

两个模型均采用 Transformer 架构，结合混合专家（Mixture-of-Experts, MoE）设计，通过仅激活部分参数来提高效率。以下是具体参数对比：

模型	总参数量	每次激活参数	内存需求	上下文窗口	基准测试对比
gpt-oss-120b	1170 亿	51 亿	80GB	128,000 令牌	接近 o4-mini，19% 在 Humanity's Last Exam
gpt-oss-20b	210 亿	36 亿	16GB 或更多	128,000 令牌	类似 o3-mini，数学和编码任务表现突出

gpt-oss-120b：设计用于生产环境和高推理需求任务，如复杂数学问题、编码和 STEM 领域知识。它在核心推理基准测试中接近 OpenAI 的 o4-mini 模型表现，特别是在 Codeforces、MMLU、HLE 和 TauBench 上表现优于 o3-mini，并在 HealthBench、AIME 2024 和 2025 上超过 o4-mini。需要 80GB 内存，适合在单高性能 GPU（如 H100）上运行。

gpt-oss-20b：针对低延迟和本地化或专业化用例设计，可在边缘设备上运行，仅需 16GB 内存，适合消费级硬件如笔记本电脑或手机。其性能与 o3-mini 相当，尤其在数学和编码任务上表现突出，适合快速迭代和本地推理。