破天荒!OpenAI开放GPT-OSS 120B/20B权重,手机可部署

2025年8月5日 ,OpenAI 正式推出 GPT-OSS-120BGPT-OSS-20B 两个开源大模型,采用 Apache 2.0 许可协议 ,并公开了模型参数。这意味着开发人员、研究人员和企业可以直接使用这些模型进行定制训练、本地部署和扩展,无需依赖传统的API调用。

那么,这两个模型有什么特别之处?它们的运行原理是什么?与 GPT-4o 或 o4-mini 等闭源大模型相比表现如何?如何上手使用它们?本文将从模型架构、性能测试等多个角度进行详细解读。

什么是 GPT-OSS?

GPT-OSS(生成式预训练Transformer开源版)是 OpenAI 在2025年8月5日基于 Apache 2.0 协议开源的一系列大语言模型。在 GPT-2 等早期开源模型之后,这是 OpenAI 再次回归开源策略,目的是让开发者、科研机构、企业和政府部门都能够更方便地使用高性能AI技术。

这些模型支持本地运行,降低了对云端服务的依赖,有利于保护数据隐私,并能满足低延迟需求。它们适用于语言理解与生成、工具调用等任务,在个人电脑和企业服务器上都能高效运行。

目前发布的GPT-OSS系列包含两大模型:

  • gpt-oss-120b:1170亿参数版本,适用于高性能计算需求
  • gpt-oss-20b:210亿参数版本,适合计算资源有限的环境

用户可以在 Hugging Face 平台免费获取这两个模型,OpenAI 还提供了详细的使用手册部署指南,帮助开发者快速上手。

模型架构和规格

OpenAI 公布了这两个模型的具体技术配置:

gpt-oss-120b (1170亿参数版)

  • 参数总量:1170 亿
  • 活跃参数(动态激活) :每个token的处理中,实际参与计算的参数为 51 亿
  • 架构 :基于 混合专家模型(MoE) ,共 36 层 ,包含 128 个专家模块 ,每个 token 会选择 4 个专家 进行计算
  • 显存需求 :可在单个 80GB 显存的 GPU(如 NVIDIA H100) 上运行
  • 上下文长度 :支持 13.1 万 token,适用于长文本理解和复杂任务
  • 模型文件大小 :60.8 GiB(采用 MXFP4 量化压缩,每个参数平均占据 4.25 比特)

gpt-oss-20b (210亿参数版)

  • 参数总量:210 亿
  • 活跃参数:每个 token 的处理中,36 亿参数参与计算
  • 架构 :MoE 结构,共 24 层 ,包含 32 个专家 ,每个 token 同样选择 4 个专家
  • 显存需求 :可在 16GB 显存 的消费级设备或边缘计算设备上运行
  • 上下文长度 :同样支持 13.1 万 token
  • 模型文件大小:12.8 GiB(同样采用 MXFP4 量化格式)

通用技术特点

  • 注意力机制 :采用 分组多查询注意力(组大小=8) ,提高并行计算效率
  • 位置编码 :使用 旋转位置嵌入(RoPE) ,增强长文本理解能力
  • 分词器 :使用了 o200k_harmony 词表(共 201,088 个 token) ,并已通过 TikToken 开源库 提供
  • 基础架构 :基于 GPT-2 / GPT-3 的 Transformer 结构 ,但进行了优化,包括 2880 维的残差连接RMS 归一化,确保训练稳定性

运行效率优化

  • 混合专家模型(MoE) + MXFP4 量化 显著降低了计算需求:

    • gpt-oss-120b 能在单个高性能 GPU 上运行,性能接近比它更大的闭源模型
    • gpt-oss-20b 则针对 笔记本电脑、边缘服务器 等低功耗设备优化,能在常规硬件上流畅推理

训练与数据

OpenAI 用海量数据训练 GPT-OSS 模型,主要使用英语内容,并特别加强 STEM(科学、技术、工程、数学)、编程和常识类数据。训练数据的最新截止日期为2024 年 6 月,确保其知识既广泛又相对较新。以下是关键训练细节:

预训练

  • 硬件 :采用 NVIDIA H100 GPU 集群进行训练

  • 计算量

    • gpt-oss-120b(1170亿参数) 消耗约 210 万 H100 小时
    • gpt-oss-20b(210亿参数) 资源消耗较少,具体数据未披露
  • 数据筛选 :过滤有害信息,如化学、生物、放射性和核武(CBRN)相关内容,减少滥用风险

  • 训练优化

    • 监督微调(SFT) 提升基本能力
    • 强化学习(RLHF) 提高安全性与合规性

对话与推理格式

模型采用Harmony(和谐)聊天格式,支持多角色交互(系统、开发者、用户、助手、工具等),适用于:

  • 复杂推理任务
  • 多步骤工具调用(代码执行、插件调用等)

格式渲染器已开源(GitHub链接),允许通过系统提示词调整推理强度(低/中/高模式),灵活适配不同需求。

性能与基准测试

GPT-OSS 系列在多项测试中表现优异,其能力与 OpenAI 的闭源模型(如 o4-mini、o3-mini)相当。以下是官方评测的关键结果:

主要观察结论

gpt-oss-120b(1170 亿参数版)

  • 推理与专业知识 :在 GPQA Diamond (高阶推理基准)和 MMLU (综合知识测试)中,表现与闭源模型 o4-mini 相当
  • 数学与编程 :在 AIME 竞赛数学SWE-Bench (软件工程任务)、Codeforces 编程题 等测试中表现突出
  • 可调节推理 :支持 思维链(CoT) 延长输出,进一步提高准确性(但会增加响应时间)

gpt-oss-20b(210 亿参数版)

  • 轻量级高性能 :虽然体积更小,但性能接近 o3-mini,尤其在数学和编程任务上优势明显
  • 适用场景 :优化后可在 普通笔记本电脑、边缘设备 等资源受限环境中流畅运行

部署与获取方式

GPT-OSS 的设计目标是让开发者 低成本、高效部署 ,并支持 本地&云端多平台运行

开放获取途径

  • Hugging Face :免费提供 MXFP4 量化版 模型权重(节省显存&存储)
  • 测试环境 :官方提供 gpt-oss.com 在线体验
  • 本地工具链 :兼容 Ollama、vLLM、LM Studio 等主流部署工具
  • 硬件适配 :提供 PyTorch、Apple Metal(苹果芯片)、NVIDIA GPU 的官方参考实现

微软生态集成

  • Azure AI Foundry

    • 企业级 微调&部署平台,内置合规安全工具
    • 针对 医疗、金融、零售 等行业优化
  • Windows AI Foundry

    • 通过 ONNX RuntimeFoundry Local 优化,让 gpt-oss-20b 在普通笔记本上高效运行
  • 开发者工具

    • Azure AI Studio / GitHub Models:直接调用 GPT-OSS,利用微软云算力扩展
    • AWS 支持 :可通过 SageMaker JumpStart 快速部署

开发支持

  • OpenAI Cookbook :详细教程涵盖 环境配置、微调、LangChain/LlamaIndex 集成
  • 结构化输出 :支持 Agent 工作流精准 JSON 返回,适合 API 对接与自动化任务

安全措施

为了防止有人滥用这些公开的模型,OpenAI做了以下防护工作:

  • 数据清洗

    • 训练前就删除了关于生化武器、核武器等危险内容
    • 确保模型学不到这些危险知识
  • 模型调教

    • 使用RLHF技术(通过人类反馈强化学习)让模型学会拒绝不当请求
    • 增加了拒绝回答敏感问题的能力
    • 提高了对越狱攻击的防御能力
  • 安全测试

    • 邀请专家模拟坏人会怎么做
    • 测试结果显示gpt-oss-120b还达不到造成实际危害的水平
    • 具体测试数据可以在OpenAI的安全报告中查看
  • 专家合作

    • 聘请专业安全团队把关
    • 目前已落实了22条安全建议中的11条
  • 漏洞悬赏

    • 在Kaggle平台上举办了50万美元奖金的安全挑战赛
    • 把发现的漏洞和测试报告都公开了

实测数据:在处理违法内容方面比o4-mini表现更好(0.692分 vs 0.658分),但在遵循指令优先级(0.832分 vs 0.993分)和减少瞎编内容(16.8% vs 23.4%)方面还需改进

使用提醒:严禁用于医疗诊断,建议隐藏模型的思考过程(CoT输出),避免用户看到可能有害的内容

目标和作用

GPT-OSS的目标是让更多人能用上高级AI,减少对收费API的依赖,特别是在发展中国家。它的主要作用包括:

本地化部署的优势

  • 隐私保护:数据在本地上处理,不会上传到云端,特别适合医疗、金融和政府等敏感领域
  • 响应更快:本地运行,不用等待云端返回结果
  • 全球普及:AI Sweden、Orange和Snowflake等机构正在用GPT-OSS开发符合当地需求的AI工具

推动AI创新

  • 高度可定制:开发者可以自由调整模型,打造专用工具,比如编程助手、教育应用等
  • 微软助力:结合Azure AI Foundry和Windows AI Foundry,企业能更快部署应用,开发者也能更高效地测试和上线新产品

使用限制和注意事项

  1. 医疗禁用不能用于看病或治病,OpenAI明确禁止这类用途

  2. 硬件要求

    • gpt-oss-20b:普通电脑也能运行
    • gpt-oss-120b:需要高性能服务器,普通人可能用不起
  3. 安全风险

    • 虽然做了严格防护,但开源模型仍有被坏人利用的可能
    • OpenAI通过安全策略和持续漏洞检测来降低风险

结论

GPT-OSS 是开源 AI 领域的一个重要进展。它推出了两个实用的大语言模型:gpt-oss-120b 和 gpt-oss-20b。这两个模型不仅功能强大、运行高效,而且容易获取使用。在实际表现上,它们能达到 o4-mini 和 o3-mini 这类商业模型的水平,特别擅长逻辑推理、编程辅助和多语言处理任务。由于采用开放权重设计,用户可以直接在本地安装部署,这样既保护了数据隐私,又减少了响应延迟。

GPT-OSS 获得了微软 Azure 云服务和 Windows 系统的技术支持,并配备了完善的安全防护方案,这些都为它在全球各行业的创新应用提供了支持。开发者可以通过以下途径使用这些模型:

  • 在 Hugging Face 平台获取模型
  • 访问官网 gpt-oss.com 进行试用
  • 参考 OpenAI 提供的 Cookbook 技术手册获取部署指南
相关推荐
我登哥MVP2 小时前
VS Code 安装 Claude Code 并接入 DeepSeek V4 Model
人工智能·python·node.js·agent·codex·deepseek·claude code
unique2 小时前
AI Native 调研报告
人工智能
云烟成雨TD2 小时前
Spring AI Alibaba 1.x 系列【73】两步 RAG
java·人工智能·spring
ai产品老杨2 小时前
解耦视频高并发与边缘计算AI布控:基于Docker的高性能安防平台,破局GB28181/RTSP协议兼容与源码交付痛点
人工智能·音视频·边缘计算
CHrisFC2 小时前
LIMS 系统 AI 建设路径:从自动化到智能化的演进之路
运维·人工智能·自动化
饼干哥哥2 小时前
一口气搭了300个AI Agents并发处理跨境运营的dirty work
人工智能
AI行业学习2 小时前
CC‑Switch v3.16.1-下载、配置、安装(2026‑06‑01 最新官方版)
开发语言·人工智能·windows·python
小糖学代码2 小时前
机器学习:5.深度学习
人工智能·深度学习·机器学习
轮子飞了2 小时前
Spring Ai 集成 DashScope 多模态模型实现身份证信息识别
java·人工智能·spring
不爱土豆唯爱马铃薯2 小时前
MONKEYCODE 教程系列MC-029 | 积分体系
人工智能