破天荒！OpenAI开放GPT-OSS 120B/20B权重，手机可部署

2025年8月5日 ，OpenAI 正式推出 GPT-OSS-120B 和 GPT-OSS-20B 两个开源大模型，采用 Apache 2.0 许可协议 ，并公开了模型参数。这意味着开发人员、研究人员和企业可以直接使用这些模型进行定制训练、本地部署和扩展，无需依赖传统的API调用。

那么，这两个模型有什么特别之处？它们的运行原理是什么？与 GPT-4o 或 o4-mini 等闭源大模型相比表现如何？如何上手使用它们？本文将从模型架构、性能测试等多个角度进行详细解读。

什么是 GPT-OSS？

GPT-OSS（生成式预训练Transformer开源版）是 OpenAI 在2025年8月5日基于 Apache 2.0 协议开源的一系列大语言模型。在 GPT-2 等早期开源模型之后，这是 OpenAI 再次回归开源策略，目的是让开发者、科研机构、企业和政府部门都能够更方便地使用高性能AI技术。

这些模型支持本地运行，降低了对云端服务的依赖，有利于保护数据隐私，并能满足低延迟需求。它们适用于语言理解与生成、工具调用等任务，在个人电脑和企业服务器上都能高效运行。

目前发布的GPT-OSS系列包含两大模型：

gpt-oss-120b：1170亿参数版本，适用于高性能计算需求
gpt-oss-20b：210亿参数版本，适合计算资源有限的环境

用户可以在 Hugging Face 平台免费获取这两个模型，OpenAI 还提供了详细的使用手册 和部署指南，帮助开发者快速上手。

模型架构和规格

OpenAI 公布了这两个模型的具体技术配置：

gpt-oss-120b (1170亿参数版)

参数总量：1170 亿
活跃参数（动态激活） ：每个token的处理中，实际参与计算的参数为 51 亿
架构：基于 混合专家模型（MoE） ，共 36 层 ，包含 128 个专家模块 ，每个 token 会选择 4 个专家 进行计算
显存需求 ：可在单个 80GB 显存的 GPU（如 NVIDIA H100） 上运行
上下文长度 ：支持 13.1 万 token，适用于长文本理解和复杂任务
模型文件大小 ：60.8 GiB（采用 MXFP4 量化压缩，每个参数平均占据 4.25 比特）

gpt-oss-20b (210亿参数版)

参数总量：210 亿
活跃参数：每个 token 的处理中，36 亿参数参与计算
架构：MoE 结构，共 24 层 ，包含 32 个专家 ，每个 token 同样选择 4 个专家
显存需求 ：可在 16GB 显存 的消费级设备或边缘计算设备上运行
上下文长度 ：同样支持 13.1 万 token
模型文件大小：12.8 GiB（同样采用 MXFP4 量化格式）

通用技术特点

注意力机制 ：采用 分组多查询注意力（组大小=8） ，提高并行计算效率
位置编码 ：使用 旋转位置嵌入（RoPE） ，增强长文本理解能力
分词器 ：使用了 o200k_harmony 词表（共 201,088 个 token） ，并已通过 TikToken 开源库 提供
基础架构 ：基于 GPT-2 / GPT-3 的 Transformer 结构 ，但进行了优化，包括 2880 维的残差连接 和 RMS 归一化，确保训练稳定性

运行效率优化

混合专家模型（MoE） + MXFP4 量化 显著降低了计算需求：
- gpt-oss-120b 能在单个高性能 GPU 上运行，性能接近比它更大的闭源模型
- gpt-oss-20b 则针对 笔记本电脑、边缘服务器 等低功耗设备优化，能在常规硬件上流畅推理

训练与数据

OpenAI 用海量数据训练 GPT-OSS 模型，主要使用英语内容，并特别加强 STEM（科学、技术、工程、数学）、编程和常识类数据。训练数据的最新截止日期为2024 年 6 月，确保其知识既广泛又相对较新。以下是关键训练细节：

预训练

硬件：采用 NVIDIA H100 GPU 集群进行训练
计算量：
- gpt-oss-120b（1170亿参数） 消耗约 210 万 H100 小时
- gpt-oss-20b（210亿参数） 资源消耗较少，具体数据未披露
数据筛选 ：过滤有害信息，如化学、生物、放射性和核武（CBRN）相关内容，减少滥用风险
训练优化：
- 监督微调（SFT） 提升基本能力
- 强化学习（RLHF） 提高安全性与合规性

对话与推理格式

模型采用Harmony（和谐）聊天格式，支持多角色交互（系统、开发者、用户、助手、工具等），适用于：

复杂推理任务
多步骤工具调用（代码执行、插件调用等）

格式渲染器已开源（GitHub链接），允许通过系统提示词调整推理强度（低/中/高模式），灵活适配不同需求。

性能与基准测试

GPT-OSS 系列在多项测试中表现优异，其能力与 OpenAI 的闭源模型（如 o4-mini、o3-mini）相当。以下是官方评测的关键结果：

主要观察结论

gpt-oss-120b（1170 亿参数版）

推理与专业知识 ：在 GPQA Diamond （高阶推理基准）和 MMLU （综合知识测试）中，表现与闭源模型 o4-mini 相当
数学与编程 ：在 AIME 竞赛数学 、SWE-Bench （软件工程任务）、Codeforces 编程题 等测试中表现突出
可调节推理 ：支持 思维链（CoT） 延长输出，进一步提高准确性（但会增加响应时间）

gpt-oss-20b（210 亿参数版）

轻量级高性能 ：虽然体积更小，但性能接近 o3-mini，尤其在数学和编程任务上优势明显
适用场景 ：优化后可在 普通笔记本电脑、边缘设备 等资源受限环境中流畅运行

部署与获取方式

GPT-OSS 的设计目标是让开发者 低成本、高效部署 ，并支持 本地&云端多平台运行：

开放获取途径

Hugging Face ：免费提供 MXFP4 量化版 模型权重（节省显存&存储）
测试环境 ：官方提供 gpt-oss.com 在线体验
本地工具链 ：兼容 Ollama、vLLM、LM Studio 等主流部署工具
硬件适配 ：提供 PyTorch、Apple Metal（苹果芯片）、NVIDIA GPU 的官方参考实现

微软生态集成

Azure AI Foundry：
- 企业级 微调&部署平台，内置合规安全工具
- 针对 医疗、金融、零售 等行业优化
Windows AI Foundry：
- 通过 ONNX Runtime 和 Foundry Local 优化，让 gpt-oss-20b 在普通笔记本上高效运行
开发者工具：
- Azure AI Studio / GitHub Models：直接调用 GPT-OSS，利用微软云算力扩展
- AWS 支持 ：可通过 SageMaker JumpStart 快速部署

开发支持

OpenAI Cookbook ：详细教程涵盖 环境配置、微调、LangChain/LlamaIndex 集成
结构化输出 ：支持 Agent 工作流 和 精准 JSON 返回，适合 API 对接与自动化任务

安全措施

为了防止有人滥用这些公开的模型，OpenAI做了以下防护工作：

数据清洗：
- 训练前就删除了关于生化武器、核武器等危险内容
- 确保模型学不到这些危险知识
模型调教：
- 使用RLHF技术（通过人类反馈强化学习）让模型学会拒绝不当请求
- 增加了拒绝回答敏感问题的能力
- 提高了对越狱攻击的防御能力

安全测试：
- 邀请专家模拟坏人会怎么做
- 测试结果显示gpt-oss-120b还达不到造成实际危害的水平
- 具体测试数据可以在OpenAI的安全报告中查看
专家合作：
- 聘请专业安全团队把关
- 目前已落实了22条安全建议中的11条
漏洞悬赏：
- 在Kaggle平台上举办了50万美元奖金的安全挑战赛
- 把发现的漏洞和测试报告都公开了

实测数据：在处理违法内容方面比o4-mini表现更好（0.692分 vs 0.658分），但在遵循指令优先级（0.832分 vs 0.993分）和减少瞎编内容（16.8% vs 23.4%）方面还需改进

使用提醒：严禁用于医疗诊断，建议隐藏模型的思考过程（CoT输出），避免用户看到可能有害的内容

目标和作用

GPT-OSS的目标是让更多人能用上高级AI，减少对收费API的依赖，特别是在发展中国家。它的主要作用包括：

本地化部署的优势

隐私保护：数据在本地上处理，不会上传到云端，特别适合医疗、金融和政府等敏感领域
响应更快：本地运行，不用等待云端返回结果
全球普及：AI Sweden、Orange和Snowflake等机构正在用GPT-OSS开发符合当地需求的AI工具

推动AI创新

高度可定制：开发者可以自由调整模型，打造专用工具，比如编程助手、教育应用等
微软助力：结合Azure AI Foundry和Windows AI Foundry，企业能更快部署应用，开发者也能更高效地测试和上线新产品

使用限制和注意事项

医疗禁用 ：不能用于看病或治病，OpenAI明确禁止这类用途
硬件要求：
- gpt-oss-20b：普通电脑也能运行
- gpt-oss-120b：需要高性能服务器，普通人可能用不起
安全风险：
- 虽然做了严格防护，但开源模型仍有被坏人利用的可能
- OpenAI通过安全策略和持续漏洞检测来降低风险

结论

GPT-OSS 是开源 AI 领域的一个重要进展。它推出了两个实用的大语言模型：gpt-oss-120b 和 gpt-oss-20b。这两个模型不仅功能强大、运行高效，而且容易获取使用。在实际表现上，它们能达到 o4-mini 和 o3-mini 这类商业模型的水平，特别擅长逻辑推理、编程辅助和多语言处理任务。由于采用开放权重设计，用户可以直接在本地安装部署，这样既保护了数据隐私，又减少了响应延迟。

GPT-OSS 获得了微软 Azure 云服务和 Windows 系统的技术支持，并配备了完善的安全防护方案，这些都为它在全球各行业的创新应用提供了支持。开发者可以通过以下途径使用这些模型：

在 Hugging Face 平台获取模型
访问官网 gpt-oss.com 进行试用
参考 OpenAI 提供的 Cookbook 技术手册获取部署指南