从 GPT-2 到 gpt-oss[1]：架构进展分析

OpenAI 本周发布了新的开放权重 LLM 模型：gpt-oss-120b 和 gpt-oss-20b，这是自 2019 年 GPT-2 以来他们推出的首批开放权重模型。而且，得益于一些巧妙的优化，它们可以在本地运行（稍后会详细介绍）。

这是自 GPT-2 以来 OpenAI 首次公开大型的、完全开源的权重模型。早期的 GPT 模型展示了 Transformer 架构的可扩展性。2022 年发布的 ChatGPT 通过展示其在写作和知识（以及后来的编码）任务中的实际应用价值，使这些模型成为主流。如今，他们分享了期待已久的权重模型，其架构包含一些有趣的细节。

以下是文章内容的简要预览。为了方便浏览，我建议您使用文章页面左侧的目录。

模型架构与 GPT-2 的比较
MXFP4 优化，使 gpt-oss 模型能够适配单个 GPU
宽度与深度之间的权衡（gpt-oss 与 Qwen3）
注意力偏差和注意力池
与 GPT-5 的基准测试和比较

一模型架构概述

在更详细地讨论架构之前，让我们先概述一下图 1 所示的两个模型：gpt-oss-20b 和 gpt-oss-120b。
图 1：两个 gpt-oss 模型

20B 型号可以在配备最高 16GB 显存的消费级显卡上运行。120B 型号可以在配备 80GB 显存的单个 H100 或更新的硬件上运行。

二来自 GPT-2

在深入比较 gpt-oss 和更新的架构之前，让我们坐上时光机，并排查看 GPT-2（图 2），看看它究竟发展到了什么程度。
图 2：gpt-oss-20b 和 GPT-2 XL 1.5B 的并排比较。

GPT-OSS 和 GPT-2 都是仅包含解码器的逻辑学习模型 (LLM)，它们基于Attention Is All You Need (2017)论文中提出的 Transformer 架构构建。多年来，许多细节都得到了改进【4】。

2.1 移除 Dropout

Dropout【5】 是一种传统的过拟合防止技术，它通过在训练过程中随机"丢弃"（即置零）一部分层激活值或注意力分数（图 3）来实现。然而，Dropout 在现代的层级模型中很少使用，GPT-2 之后的大多数模型都已弃用它。
图 3：dropout 应用于注意力得分矩阵的示意图

我推测 GPT-2 最初使用 dropout 是因为它继承自最初的 Transformer 架构。研究人员可能注意到，dropout 并没有真正提升 LLM 的性能（我在小规模 GPT-2 复现实验中也观察到了这一点）。这可能是因为 LLM 通常只在海量数据集上进行单轮训练，这与 dropout 最初引入时所针对的数百轮训练模式截然不同。因此，由于 LLM 在训练过程中每个 token 只出现一次，所以过拟合的风险很小。

有趣的是，虽然 Dropout 在 LLM 架构设计中多年来一直被忽略，但我找到了一篇2025 年的研究论文，其中包含小规模 LLM 实验（Pythia 1.4B），证实 Dropout 在这些单周期机制下会导致下游性能下降 。

2.2 RoPE 取代绝对位置嵌入

在基于Transformer的LLM中，由于注意力机制的存在，位置编码是必要的。默认情况下，注意力机制会将输入词元视为无序的。在最初的GPT架构中，绝对位置嵌入通过为序列中的每个位置添加一个学习到的嵌入向量（图4）来解决这个问题，然后将该向量添加到词元嵌入中。
图 4：绝对位置嵌入的示意图。

RoPE[6]（旋转位置嵌入）引入了一种不同的方法：它不是将位置信息作为单独的嵌入向量添加，而是根据每个词元的位置旋转查询向量和键向量来编码位置。（RoPE 的理念很巧妙，但解释起来有点棘手。我计划以后单独详细讲解。）

RoPE 于 2021 年首次推出，但随着 2023 年首款 Llama 模型的发布而得到广泛采用，并已成为现代 LLM 的必备品。

2.3 Swish/SwiGLU 取代 GELU

早期的GPT架构使用GELU。为什么现在要用Swish而不是GELU呢？Swish（也称为sigmoid线性单元或SiLU）的计算成本略低，在我看来，这就是全部原因。根据你查阅的论文，你会发现两者在建模性能方面略有不同。我认为这些细微的差别可能在标准误差范围内，而且实际效果会因超参数的敏感性而有所不同。

激活函数曾是争论的焦点，直到十多年前深度学习界基本接受了 ReLU 函数。此后，研究人员提出并尝试了许多类似 ReLU 的变体，这些变体具有更平滑的曲线，其中 GELU 和 Swish（图 5）最终被广泛接受。
图 5：Swish 和 GELU 激活函数的比较，它们都是 ReLU 的更平滑版本。

早期的 GPT 架构使用 GELU，其定义为0.5x * [1 + erf(x / sqrt(2))]。这里，erf（误差函数的缩写）是高斯积分，它是使用高斯积分的多项式近似计算的，这使得它比 Swish 中使用的 sigmoid 等更简单的函数计算成本更高，其中 Swish 就是x * sigmoid(x)。

实际上，Swish 的计算成本略低于 GELU，这可能是它在大多数新模型中取代 GELU 的主要原因。根据不同的论文，两者在建模性能方面可能略有差异。但我认为这些差异通常在标准误差范围内，最终结果很大程度上取决于超参数调优。

如今大多数架构都使用 Swish 协议。然而，GELU 协议并没有完全被遗忘；例如，谷歌的 Gemma 模型仍然使用 GELU 协议。

更值得注意的是，前馈模块（一个小型多层感知器）被门控线性单元（GLU）所取代，GLU 代表门控线性单元，该单元在2020 年的一篇论文中提出。具体来说，两个全连接层被三个全连接层所取代，其使用方式如下图 6 所示。
图 6：Swish 和 GELU 与其门控对应物 SwiGLU 和 GEGLU 的比较。
乍一看，GEGLU/SwiGLU 变体似乎比常规前馈层更好，因为多了一个层，参数也更多。但这种看法具有误导性，因为在实践中， SwiGLU/GEGLU 中的W权重层通常设置为传统前馈层中相应层V大小的一半。W_1

为了更好地说明这一点，请考虑常规算法和 GLU 算法的具体代码实现：
图 7：常规前馈模块（上）和 SwiGLU 变体（下）并排显示。请注意，Swish 函数在 PyTorch 中被实现为"silu"。
假设嵌入维度为 1024。在常规前馈情况下，这将是

fc1：1024 × 4096 = 4,194,304
fc2：1024 × 4096 = 4,194,304

即 fc1 + fc2 = 8,388,608 个参数。

对于 GLU 变体，我们有

fc1：1024 × 1024 = 1,048,576
fc2：1024 × 1024 = 1,048,576
fc3：1024 × 1024 = 1,048,576

即，3 × 1,048,576 = 3,145,728 个权重参数。

因此，总体而言，使用GLU 变体可以减少参数数量 ，并且性能也更好。性能更佳的原因在于，这些 GLU 变体提供了额外的乘法交互作用，从而提高了表达能力（这与深度较浅且宽度较大的神经网络性能优于浅层且宽度较大的神经网络的原因相同，前提是它们经过了良好的训练）

2.4 混合专家模型取代单一前馈模块

除了将前馈模块升级为 SwiGLU（如前一节所述）之外，gpt-oss 还用多个前馈模块替换了单个前馈模块，每个标记生成步骤仅使用其中一个子集。这种方法被称为混合专家模型（MoE），如下图 8 所示。
图 8：前馈模块被混合专家 (MoE) 模块取代。
因此，用多个前 馈模块替换单个前馈模块（如在 MoE 设置中所做的那样）会显著增加模型的总参数数量。然而，关键在于我们并非对每个词元都使用（"激活"）所有专家。相反，路由器会为每个词元选择一小部分专家。

由于每次只有少数专家处于活跃状态，MoE 模块通常被称为稀疏模块，这与始终使用完整参数集的 密集模块形成对比。然而，通过 MoE 模块获得的大量参数增加了 LLM 的容量，这意味着它可以在训练过程中吸收更多知识。尽管如此，由于我们并非同时使用所有参数，稀疏性仍然保持了推理的效率。

（有趣的事实：在大多数经验模型中，专家权重占模型总参数的 90% 以上。）

2.5 分组查询注意力机制取代多头注意力机制

正如我在之前的文章中提到的，近年来，分组查询注意力（GQA）作为一种比多头注意力（MHA）更高效的计算和参数替代方案而出现。

在 MHA 中，每个头部都有自己的一组键值对。GQA 通过将多个头部分组以共享相同的键值对投影来降低内存使用量。

例如，如图 9 所示，如果有 2 个键值对和 4 个注意力头，注意力头 1 和 2 可以共享一组键值对，而注意力头 3 和 4 可以共享另一组键值对。根据消融实验，这种分组方式减少了键值计算的总数，从而降低了内存使用量并提高了效率，且不会显著影响建模性能。
图 9：MHA 和 GQA 的比较。此处，组大小为 2，其中键值对在两个查询之间共享。
因此，GQA 的核心思想是通过在多个查询头之间共享键值对来减少键值对的数量。这（1）降低了模型的参数数量，（2）由于需要存储和从键值缓存中检索的键值对数量减少，从而降低了推理过程中键值张量的内存带宽占用。

虽然 GQA 主要是一种提高 MHA 计算效率的变通方法，但消融研究（例如原始 GQA 论文和Llama 2 论文中的研究）表明，在 LLM 建模性能方面，它与标准 MHA 的性能相当。

2.6 滑动窗口注意事项

在LongFormer论文[7]中提出，后经 Mistral 推广。有趣的是，gpt-oss 在每隔一层都应用了该机制。你可以将其视为多头注意力机制的一种变体，或者在本例中是分组查询注意力机制（GQA），其中注意力上下文被限制在一个更小的窗口内，从而降低了内存使用量和计算成本。
图 10：常规注意力（左）与滑动窗口注意力（右）的比较。
具体来说，gpt-oss 在关注完整上下文的 GQA 层和具有限制为 128 个标记的滑动窗口的 GQA 层之间交替。

Gemma 2 (2024)使用了类似的 1:1 比例。今年早些时候发布的 Gemma 3更进一步，采用了 5:1 的比例，这意味着每五个滑动窗口（局部）注意力层才对应一个全注意力层。

根据 Gemma 消融实验，滑动窗口注意力机制对建模性能的影响微乎其微，如下图所示。需要注意的是，Gemma 2 的窗口大小为 4096 个 token，而 Gemma 3 将其减小到 1024 个 token。在 gpt-oss 中，窗口大小仅为 128 个 token，非常小。

2.7 RMSNorm取代LayerNorm

最后，来自 GPT-2 的最后一个小调整是用RMSNorm (2019)替换LayerNorm (2016)LayerNorm (2016)，这在近年来已成为一种常见的趋势。

类似于用 Swish 和 SwiGLU 替换 GELU，RMSNorm 也是一项虽小但合理的效率提升措施。RMSNorm 与 LayerNorm 的目的类似，都是为了归一化层激活值，如下图 11 所示。

你可能还记得，不久前，BatchNorm 还是完成这项任务的首选方法。但它现在已经不再流行，主要是因为它难以高效并行化（由于均值和方差批次统计），而且在小批次大小下性能较差。
图 11：小线性层的 LayerNorm（左）与 RMSNorm（右）的比较。

如上图 11 所示，LayerNorm 和 RMSNorm 都将层输出缩放到合理的范围内。

LayerNorm 减去均值并除以标准差 ，减去均值并除以标准差，使得层输出具有零均值和单位方差（方差为 1，标准差为 1）。

RMSNorm 将输入值除以均方根值 。这使得激活值缩放到可比较的幅度，而不会强制均值为零或方差为 1。在图 11 所示的这个特定示例中，均值为 0.77，方差为 0.41。

LayerNorm 和 RMSNorm 都能稳定激活尺度并提升优化效果，但 RMSNorm 在大规模 LLM 模型中通常更受青睐，因为它计算成本更低。与 LayerNorm 不同，RMSSNorm 没有偏差（偏移）项，并将耗时的均值和方差计算简化为一次均方根运算。这使得跨特征降维的次数从两次减少到一次，从而降低了 GPU 的通信开销，提高了训练效率。

图 12 显示了这在代码中的样子：
图 12：LayerNorm 和 RMSNorm 的代码实现表明 RMSNorm 在计算上更简单。

2.8 GPT-2 的遗产

我仍然认为 GPT-2 是学习 LLM 的绝佳入门架构。它既简单易懂，不会让人迷失在层层优化技巧中，又足够复杂，能够让你扎实掌握现代 Transformer 模型的工作原理。

从 GPT-2 入手，您可以专注于基础知识（注意力机制、位置嵌入、归一化和整体训练流程），而不会被新架构中的额外功能和调整所淹没。

事实上，我认为在尝试在其基础上叠加新的改进之前，先花时间学习甚至实现 GPT-2 是值得的。这样不仅能让你更容易理解这些改进，而且你也会更欣赏它们，因为你会更清楚地了解它们试图解决的局限性或问题。

三将 gpt-oss 与一种最新的架构进行比较 (Qwen3)

现在我们已经了解了从 GPT-2 到 GPT OSS 的演变过程，我们可以进行下一步，将 GPT OSS 与更新的架构 Qwen3 进行比较，Qwen3 于三个月前的 2025 年 5 月发布。

我之所以选择 Qwen3，是因为截至撰写本文时，它位列开源权重模型的前列。此外，Qwen3 的一个 MoE 模型与 GPT OSS 具有大致可比性，因为它们在可训练参数方面整体规模相近。

下图 13 将 gpt-oss-20b 与大小相当的 Qwen3 模型进行了比较。

图 13：大小相当的 gpt-oss 和 Qwen3 模型并排摆放。

如图所示，gpt-oss 20B 和 Qwen3 30B-A3B 的架构组件非常相似。除了尺寸之外，主要区别在于 gpt-oss 采用了滑动窗口注意力机制（如前文 1.6 节所述，图中未显示），而 Qwen3 没有采用。

3.1 宽度与深度

仔细观察这两个模型，我们发现 Qwen3 的架构要深得多，它有 48 个变压器模块，而不是 24 个（图 14）。
图 14：Qwen3 的转换器模块数量是 gpt-oss-20b 的两倍。

另一方面，gpt-oss 是一种更广泛的架构：

嵌入维度为 2880 而不是 2048
中间专家（前馈）预测维度也为 2880 而不是 768。

值得注意的是，gpt-oss 使用的注意力头数量是原来的两倍，但这并不会直接增加模型的宽度。模型的宽度是由嵌入维度决定的。

在参数数量固定的情况下，一种方法是否比另一种方法更有优势？一般来说，更深的模型具有更大的灵活性，但由于梯度爆炸和梯度消失等不稳定问题，训练起来可能更困难（RMSNorm 和快捷连接旨在缓解这些问题）。

更宽的架构具有推理速度更快（每秒处理更多令牌）的优势，这是因为并行化程度更高，但内存成本也更高。

就模型性能而言，遗憾的是，除了Gemma 2论文（表9）中的一项消融研究外，我目前还没有找到真正意义上的同类比较（参数规模和数据集保持不变）。该研究发现，对于90亿参数架构，更宽的设置略优于更深的设置。在4个基准测试中，更宽的模型平均得分为52.0，而更深的模型平均得分为50.8。

3.2 少数大型专家与众多小型专家

如上图 14 所示，值得注意的是，gpt-oss 的专家数量出奇地少（32 个，而非 128 个），并且每个 token 仅使用 4 个活跃专家，而非 8 个。然而，每个专家的规模都比 Qwen3 中的专家大得多。

这一点很有意思，因为近期的趋势和发展表明，使用更多、更小的模型是有益的。在总参数量保持不变的情况下，这种变化在下图15（引自DeepSeekMoE论文）中得到了很好的体现。
图 15：摘自"DeepSeekMoE：迈向混合专家语言模型中的终极专家专业化"的带注释图， https://arxiv.org/abs/2401.06066

值得注意的是，与 DeepSeek 的模型不同，gpt-oss 和 Qwen3 都没有使用共享专家。

平心而论，gpt-oss 中专家数量较少可能是 20B 容量的副作用。观察下面的 120B 模式，他们确实增加了专家（和 Transformer 模块）的数量，而其他所有参数保持不变，如下图 16 所示。
图 16：并排的两种 gpt-oss 架构，其中较大的 120B 模型仅扩展了 transformer 模块的数量和专家的数量。
20B 和 120B 模型如此相似的一个比较乏味的解释可能是，120B 模型才是重点。而创建更小模型最简单的方法就是缩短模型长度（减少 Transformer 模块）并减少专家数量，因为大部分参数都集中在专家模型中。然而，我们也可以推测，他们是否先训练了 120B 模型，然后为了继续进行预训练而删减了一些 Transformer 模块和专家模型（而不是从随机权重开始）。

总之，这是因为只对这两个因素（变压器模块和专家数量）进行缩放是非常不寻常的。例如，当我们查看不同规模的 Qwen3 MoE 模型（下图 17）时，会发现它们在更多方面都以更接近比例的方式进行缩放。
图 17：Qwen3 各型号的架构差异。

3.3 注意偏向和注意陷阱

gpt-oss 和 Qwen3 都使用了分组查询注意力机制。主要区别在于，如前所述，gpt-oss 通过每隔一层使用滑动窗口注意力机制来限制上下文的大小。

然而，有一个有趣的细节引起了我的注意。如下图所示，gpt-oss 似乎使用了偏置单元来表示注意力权重。
图 18：gpt-oss 模型在注意力层中使用偏置单元。参见此处的代码示例。

自从 GPT-2 时代以来，我就没见过这些偏置单元被使用，它们通常被认为是多余的。事实上，我最近找到一篇论文，它从数学上证明了至少对于关键变换 (k_proj) 而言，情况确实如此。此外，实证结果表明，使用偏置单元和不使用偏置单元之间的差异很小（见下图 19）。

图 19：来自https://arxiv.org/pdf/2302.08626的表格，显示了使用和不使用偏置单元从头开始训练模型时的平均测试损失。

您可能还注意到图 18 代码截图中的定义。sinks在一般模型中，注意力接收器是放置在序列开头的特殊"始终关注"标记，用于稳定注意力，这在长上下文场景中尤其有用。也就是说，如果上下文变得很长，开头的这个特殊关注标记仍然会被关注，并且可以学习存储一些关于整个序列的通用信息。（我认为它最初是在《带有注意力接收器的高效流式语言模型》一文中提出的。）

在 gpt-oss 实现中，注意力接收器并非输入序列中的实际标记。相反，它们是学习到的、针对每个注意力头的偏置逻辑值，并附加到注意力分数上（图 20）。其目标与上述注意力接收器相同，但无需修改标记化的输入。
图 20：gpt-oss 中注意力池的使用；基于此处的Hugging Face 代码。

3.4 许可证

最后，与 Qwen3 类似，gpt-oss 模型采用 Apache 2.0 开源许可证，这非常棒（这也是我为自己的开源项目选择的许可证）。这意味着这些模型可以被提炼成其他模型，或用于商业产品，而无需任何限制。

**开放权重模型与开源逻辑学习模型。**这一区别已争论多年，但为了避免对本次发布及其相关内容产生混淆，有必要加以澄清。一些模型开发者仅发布模型权重和推理代码（例如 Llama、Gemma、gpt-oss），而另一些开发者（例如 OLMo）则将包括训练代码、数据集和权重在内的所有内容作为真正的开源资源发布。

按照更严格的定义，gpt-oss 是一个开放权重模型（就像 Qwen3 一样），因为它包含了权重和推理代码，但不包含训练代码或数据集。然而，业界对这一术语的使用并不统一。

我假设"gpt-oss"中的"oss"代表开源软件；然而，令我惊喜的是，OpenAI 在其官方 公告文章中明确地将 gpt-oss 描述为开放权重模型。

四其他有趣的小细节

前几节描述了自 GPT-2 以来架构的演变，并讨论了它与 Qwen3（以及大多数其他最新模型）的相似之处，但仍有一些值得注意的细节我尚未提及。这些要点虽然无法完全归入前面的章节，但仍然值得一提。

4.1 培训概述

遗憾的是，关于训练集大小和算法的信息并不多。我在下面列出了模型卡片报告（1）和公告帖（2）中最有趣的信息：

使用我们最先进的预训练和后训练技术对 gpt-oss 模型进行训练 [...] (1)
$...\] 完成该算法需要 210 万 H100 小时，而 gpt-oss-20b 所需的时间几乎只有其十分之一。(1) \[...\]包括一个监督式微调阶段和一个高计算能力的强化学习阶段 \[...\] (2) 我们使用主要由英文文本组成的数据集训练模型，重点关注 STEM（科学、技术、工程和数学）、编程和一般知识。(2)$

因此，我们知道 gpt-oss 模型是推理模型。其训练所需的计算量为 210 万 H100 GPU 小时，与规模约为其 5.6 倍的DeepSeek V3模型（训练所需的 H800 GPU 小时数为 278.8 万）大致相当。遗憾的是，目前还没有关于 Qwen3 模型训练时间的信息。

有趣的是，GPT-oss 的训练时间估计包括了指令跟踪的监督学习和推理的强化学习，而 DeepSeek V3 只是一个预训练的基础模型，DeepSeek R1 是在此基础上单独训练的。

4.2 推理努力

如前所述，gpt-oss模型是推理模型。然而，特别有趣的是，它们的训练方式使得用户可以通过调整推理时间轻松控制推理程度。

具体来说，gpt-oss 模型可以接收"推理努力程度：低/中/高"指令作为其系统提示的一部分，这直接影响响应长度和准确性，如图 21 所示。
图 21：gpt-oss 模型在不同推理努力下的响应长度和质量（模型卡片中的注释图）

这种程度的可调节性非常有用，因为它使我们能够在成本、计算量和准确性之间取得平衡。例如，如果任务很简单，比如回答一个简单的知识性问题或修正一个小的拼写错误，我们可以省略复杂的推理过程。这既节省了时间和资源，又避免了不必要的冗长回答和繁琐的推理过程。

令人遗憾的是，OpenAI 不像 Qwen3 或 OLMo 那样，在基于强化学习的推理训练之前没有发布基础模型。基础模型对于从事推理方法研究的研究人员来说，是非常宝贵的起点（这也是我目前喜欢使用 Qwen3 Base 的原因之一）。我猜测 OpenAI 的这一决定更多是出于行业和生产应用场景的考虑，而非研究方面的考量。

请注意，最初的 Qwen3 模型也提供了一个开关，用于启用/禁用思考（推理）模式（通过enable_thinking=True/False分词器中的一个设置，只需添加 `<think></think>` 标签即可禁用推理行为）。然而，Qwen3 团队在最近几周更新了他们的模型，并放弃了混合模型，转而采用专门的指导/思考/编码变体。

原因是混合模式的性能低于单一模式的性能：
经过与社区讨论和反思，我们决定放弃混合思维模式。我们将分别训练指令模型和思维模型，以达到最佳质量。

4.3 MXFP4 优化：一个虽小但重要的细节

一个有趣的惊喜是，OpenAI 为教育部专家发布了带有 MXFP4 量化方案的 gpt-oss 模型。

量化格式曾经是一个小众话题，主要与移动或嵌入式人工智能相关，但随着模型规模的扩大，这种情况发生了改变。在本例中，MXFP4 优化使得模型能够在单 GPU 设备上运行。

以下是实际操作中的样子：

大型模型（例如 120B）可以安装在单个 80GB 的 H100 或更新的 GPU 上。虽然不是消费级硬件，但租用一台配备单块 H100 的机器比租用一台配备多块 H100 的机器要便宜得多。此外，我们也不用担心将模型分配到不同的 GPU 上，从而避免增加通信开销。更棒的是，从一开始就支持 AMD MI300X 系列显卡！
较小的 20B 型号甚至可以支持 16 GB 显存；但需要注意的是，它必须是 RTX 50 系列或更新的 GPU 才能支持 MXFP4。（编辑：最近通过补丁添加了对旧显卡（例如 RTX 4090）的支持。）

请注意，这些模型也能在较旧的硬件上运行，但由于不支持 MXFP4，因此会消耗更多内存。如果没有 MXFP4 优化，bfloat16 中的模型将分别消耗约 48 GB (gpt-oss-20b) 和 240 GB (gpt-oss-120b) 的内存。

顺便一提，我用 Ollama 在我的 Mac Mini 上流畅运行 gpt-oss-20b 模型。它占用大约 13.5 GB 内存，这非常合理。

4.4 基准测试

这些模型目前还比较新，尚不具备独立基准测试的条件。查看LM Arena排行榜，我发现gpt-oss尚未上榜。因此，根据LM Arena用户的反馈，Qwen3-Instruct目前仍然是最佳的开源模型（图22）。
图 22： LM Arena 排行榜当前视图（截至 2025 年 8 月 8 日）

从 gpt-oss 公告帖子中提供的推理基准来看，我们可以看到 gpt-oss 模型与 OpenAI 的专有模型以及 Qwen3 相当（图 23）。
图 23：主要基准测试图表来自 gpt-oss 官方公告。"无工具"gpt-oss-120b 数据取自官方模型卡文档，Qwen3 数据取自官方 Qwen3 代码库。

但是需要注意的是，gpt-oss-120b 的大小几乎只有 Qwen3 A235B-A22B-Thinking-2507 型号的一半，并且可以在单个 GPU 上运行。

然而，基准测试性能并不总是能反映实际使用情况。在我过去几天的有限使用中，我发现 gpt-oss 相当强大。话虽如此，正如其他人所观察到的，它似乎确实比较容易出现幻觉（这一点在其产品说明卡中也有提及）。

这可能源于其训练侧重于数学、谜题和代码等推理任务，从而导致一些"通用知识遗忘"。不过，由于gpt-oss在设计之初就考虑到了工具的使用，这种局限性可能会随着时间的推移而减弱。开源语言学习模型（LLM）中的工具集成仍处于早期阶段，但随着技术的成熟，我预计我们将越来越多地允许模型在回答事实性或知识性查询时参考外部资源（例如搜索引擎）。

如果这种情况发生，那么优先培养推理能力而非记忆力或许是明智之举。这与人类在学校（或生活中）的学习非常相似，在学校里，解决问题的能力往往比记忆事实更重要。

五 GPT-OSS 和 GPT-5

OpenAI 本周动作频频，在发布 gpt-oss 后不久便推出了期待已久的 GPT-5 模型。GPT-5 的发布令人瞩目。如果要说有什么特别之处，那就是他们的开源模型在基准测试性能方面（图 24）的表现着实让我感到惊讶，甚至超过了他们最好的产品。

图 24：主要基准测试图表来自 GPT-5 官方公告。gpt-oss 数据取自官方模型卡文档和公告，Qwen3 数据取自官方 Qwen3-Coder 代码库。

总而言之，尽管有些人认为这次发布被过度炒作，但我很高兴我们拥有了一套非常强大的开源模型，它们与最好的专有模型之间的差距并不大。当然，基准测试通常无法准确反映实际使用情况，而且基于有限的使用量现在下结论还为时过早。

参考文献

1 从GPT-2到gpt-oss架构分析 : https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the?utm_source=substack&utm_campaign=post_embed&utm_medium=web

2 gpt-oss-20b：https://huggingface.co/openai/gpt-oss-20b

3 gpt-oss-120b：https://huggingface.co/openai/gpt-oss-120b

4 回顾-大模型14个经典架构：https://blog.csdn.net/qq_29296685/article/details/154976250?spm=1001.2014.3001.5501

5 dropout：https://arxiv.org/abs/1207.0580

6 回顾-大模型位置编码 : https://blog.csdn.net/qq_29296685/article/details/153988822?spm=1001.2014.3001.5501

7LongFormer :https://arxiv.org/abs/2004.05150

8 gpt-oss：https://openai.com/zh-Hans-CN/index/introducing-gpt-oss/