深夜重磅！OpenAI 回归开源：连发两款推理模型，笔记本可运行

时隔六年，OpenAI 终于重新踏入开源领域。

今天凌晨，OpenAI 做出了一个重大举动：正式开源两款新型推理模型 gpt-oss-120b和 gpt-oss-20b，立即在AI 社区引发轩然大波。

自GPT-2 发布以来，OpenAI 已经有相当长一段时间未涉足开源领域。此次回归开源，可谓来势汹汹。

这两款模型均采用宽松的 Apache 2.0 许可证，支持商业化和自由修改。据奥尔特曼透露，gpt-oss 性能逼近 OpenAI 当前闭源主力产品 o4-mini，却能在消费级硬件上高效运行，大幅降低了开发与应用门槛。

其中，gpt-oss-120b 总参数量达 1170 亿，采用混合专家架构（MoE），推理时每 token 仅激活 51 亿参数。它在多项核心基准测试中接近 o4-mini 的表现，包括编程（Codeforces）、通用问题求解（MMLU）和工具调用（TauBench），甚至在健康问答（HealthBench）和数学竞赛（AIME）中部分反超。而该模型仅需单张 80GB GPU 即可运行，如 H100 或消费级 RTX 6000 Ada 。

尤其值得关注的是轻量版 gpt-oss-20b。它在 16GB内存设备------如高端笔记本或边缘计算终端上即可流畅推理，速度达每秒 24 token（M3 Max 实测）。其性能对标 o3-mini，尤其适合本地部署、快速原型开发或对延迟敏感的场景。

用户现可通过LM Studio、Ollama 等工具直接体验，无需复杂配置。

两款模型均采用Transformer 架构，并利用专家混合（MoE）来减少处理输入所需的活跃参数数量。其中，gpt-oss-120b 每个 token 激活 5.1B 参数，而 gpt-oss-20b 则激活 3.6B 参数，两款模型的总参数分别为 117B 和 21B。

此外，两款模型采用交替密集和局部带状稀疏注意力模式，类似于GPT-3。为了提高推理和内存效率，模型还使用了分组多查询注意力，组大小为 8。同时利用旋转位置编码（RoPE）进行位置编码，并原生支持最长 128k 的上下文长度。

在训练集上，OpenAI 在一个主要是英文的文本数据集上训练了两款模型，重点关注 STEM、编程和常识类内容，并使用一个比 o4-mini 和 GPT-4o 所使用更为广泛的分词器（tokenizer）------o200k_harmony 对数据进行分词，同样也将其开源。

OpenAI 声称开源模型采用了与 o4-mini 相似的后训练流程，包含监督微调和高计算强化学习阶段。此外，OpenAI 还训练模型在输出答案前先进行思维链推理和工具调用。通过采用与 OpenAI 专有推理模型相同的技术，这些模型在后训练后展现出卓越的能力。

同时，与API 中的 OpenAI o 系列推理模型类似，这两款开源模型支持 "低、中、高" 三档推理强度调节，开发者只需在系统消息中添加一行指令即可轻松设置，实现延迟与性能的平衡。

此次开源或许也是 OpenAI 对行业趋势的回应。2025年初，DeepSeek 等开源模型掀起浪潮，奥特曼曾公开反思"在开源上站错历史方向"。如今 gpt-oss 的推出，也是向开源生态递出的橄榄枝。

不过，模型仍有局限。据 OpenAI 披露，gpt-oss 在人物知识问答（PersonQA）中的幻觉率达 49%（120b）和 53%（20b），显著高于闭源模型。

尽管如此，新模型已经获得产业快速支持。目前，Hugging Face、Azure 等多家平台已经首发接入，开发者现可下载或在线测试。

OpenAI 强调，此次开源聚焦"安全可控"，模型经生物与网络安全压力测试后，性能对齐内部标准。

六年等待，OpenAI 以技术重回开源战场。gpt-oss 能否推动 AI 民主化？