破天荒!OpenAI开放GPT-OSS 120B/20B权重,手机可部署

2025年8月5日 ,OpenAI 正式推出 GPT-OSS-120BGPT-OSS-20B 两个开源大模型,采用 Apache 2.0 许可协议 ,并公开了模型参数。这意味着开发人员、研究人员和企业可以直接使用这些模型进行定制训练、本地部署和扩展,无需依赖传统的API调用。

那么,这两个模型有什么特别之处?它们的运行原理是什么?与 GPT-4o 或 o4-mini 等闭源大模型相比表现如何?如何上手使用它们?本文将从模型架构、性能测试等多个角度进行详细解读。

什么是 GPT-OSS?

GPT-OSS(生成式预训练Transformer开源版)是 OpenAI 在2025年8月5日基于 Apache 2.0 协议开源的一系列大语言模型。在 GPT-2 等早期开源模型之后,这是 OpenAI 再次回归开源策略,目的是让开发者、科研机构、企业和政府部门都能够更方便地使用高性能AI技术。

这些模型支持本地运行,降低了对云端服务的依赖,有利于保护数据隐私,并能满足低延迟需求。它们适用于语言理解与生成、工具调用等任务,在个人电脑和企业服务器上都能高效运行。

目前发布的GPT-OSS系列包含两大模型:

  • gpt-oss-120b:1170亿参数版本,适用于高性能计算需求
  • gpt-oss-20b:210亿参数版本,适合计算资源有限的环境

用户可以在 Hugging Face 平台免费获取这两个模型,OpenAI 还提供了详细的使用手册部署指南,帮助开发者快速上手。

模型架构和规格

OpenAI 公布了这两个模型的具体技术配置:

gpt-oss-120b (1170亿参数版)

  • 参数总量:1170 亿
  • 活跃参数(动态激活) :每个token的处理中,实际参与计算的参数为 51 亿
  • 架构 :基于 混合专家模型(MoE) ,共 36 层 ,包含 128 个专家模块 ,每个 token 会选择 4 个专家 进行计算
  • 显存需求 :可在单个 80GB 显存的 GPU(如 NVIDIA H100) 上运行
  • 上下文长度 :支持 13.1 万 token,适用于长文本理解和复杂任务
  • 模型文件大小 :60.8 GiB(采用 MXFP4 量化压缩,每个参数平均占据 4.25 比特)

gpt-oss-20b (210亿参数版)

  • 参数总量:210 亿
  • 活跃参数:每个 token 的处理中,36 亿参数参与计算
  • 架构 :MoE 结构,共 24 层 ,包含 32 个专家 ,每个 token 同样选择 4 个专家
  • 显存需求 :可在 16GB 显存 的消费级设备或边缘计算设备上运行
  • 上下文长度 :同样支持 13.1 万 token
  • 模型文件大小:12.8 GiB(同样采用 MXFP4 量化格式)

通用技术特点

  • 注意力机制 :采用 分组多查询注意力(组大小=8) ,提高并行计算效率
  • 位置编码 :使用 旋转位置嵌入(RoPE) ,增强长文本理解能力
  • 分词器 :使用了 o200k_harmony 词表(共 201,088 个 token) ,并已通过 TikToken 开源库 提供
  • 基础架构 :基于 GPT-2 / GPT-3 的 Transformer 结构 ,但进行了优化,包括 2880 维的残差连接RMS 归一化,确保训练稳定性

运行效率优化

  • 混合专家模型(MoE) + MXFP4 量化 显著降低了计算需求:

    • gpt-oss-120b 能在单个高性能 GPU 上运行,性能接近比它更大的闭源模型
    • gpt-oss-20b 则针对 笔记本电脑、边缘服务器 等低功耗设备优化,能在常规硬件上流畅推理

训练与数据

OpenAI 用海量数据训练 GPT-OSS 模型,主要使用英语内容,并特别加强 STEM(科学、技术、工程、数学)、编程和常识类数据。训练数据的最新截止日期为2024 年 6 月,确保其知识既广泛又相对较新。以下是关键训练细节:

预训练

  • 硬件 :采用 NVIDIA H100 GPU 集群进行训练

  • 计算量

    • gpt-oss-120b(1170亿参数) 消耗约 210 万 H100 小时
    • gpt-oss-20b(210亿参数) 资源消耗较少,具体数据未披露
  • 数据筛选 :过滤有害信息,如化学、生物、放射性和核武(CBRN)相关内容,减少滥用风险

  • 训练优化

    • 监督微调(SFT) 提升基本能力
    • 强化学习(RLHF) 提高安全性与合规性

对话与推理格式

模型采用Harmony(和谐)聊天格式,支持多角色交互(系统、开发者、用户、助手、工具等),适用于:

  • 复杂推理任务
  • 多步骤工具调用(代码执行、插件调用等)

格式渲染器已开源(GitHub链接),允许通过系统提示词调整推理强度(低/中/高模式),灵活适配不同需求。

性能与基准测试

GPT-OSS 系列在多项测试中表现优异,其能力与 OpenAI 的闭源模型(如 o4-mini、o3-mini)相当。以下是官方评测的关键结果:

主要观察结论

gpt-oss-120b(1170 亿参数版)

  • 推理与专业知识 :在 GPQA Diamond (高阶推理基准)和 MMLU (综合知识测试)中,表现与闭源模型 o4-mini 相当
  • 数学与编程 :在 AIME 竞赛数学SWE-Bench (软件工程任务)、Codeforces 编程题 等测试中表现突出
  • 可调节推理 :支持 思维链(CoT) 延长输出,进一步提高准确性(但会增加响应时间)

gpt-oss-20b(210 亿参数版)

  • 轻量级高性能 :虽然体积更小,但性能接近 o3-mini,尤其在数学和编程任务上优势明显
  • 适用场景 :优化后可在 普通笔记本电脑、边缘设备 等资源受限环境中流畅运行

部署与获取方式

GPT-OSS 的设计目标是让开发者 低成本、高效部署 ,并支持 本地&云端多平台运行

开放获取途径

  • Hugging Face :免费提供 MXFP4 量化版 模型权重(节省显存&存储)
  • 测试环境 :官方提供 gpt-oss.com 在线体验
  • 本地工具链 :兼容 Ollama、vLLM、LM Studio 等主流部署工具
  • 硬件适配 :提供 PyTorch、Apple Metal(苹果芯片)、NVIDIA GPU 的官方参考实现

微软生态集成

  • Azure AI Foundry

    • 企业级 微调&部署平台,内置合规安全工具
    • 针对 医疗、金融、零售 等行业优化
  • Windows AI Foundry

    • 通过 ONNX RuntimeFoundry Local 优化,让 gpt-oss-20b 在普通笔记本上高效运行
  • 开发者工具

    • Azure AI Studio / GitHub Models:直接调用 GPT-OSS,利用微软云算力扩展
    • AWS 支持 :可通过 SageMaker JumpStart 快速部署

开发支持

  • OpenAI Cookbook :详细教程涵盖 环境配置、微调、LangChain/LlamaIndex 集成
  • 结构化输出 :支持 Agent 工作流精准 JSON 返回,适合 API 对接与自动化任务

安全措施

为了防止有人滥用这些公开的模型,OpenAI做了以下防护工作:

  • 数据清洗

    • 训练前就删除了关于生化武器、核武器等危险内容
    • 确保模型学不到这些危险知识
  • 模型调教

    • 使用RLHF技术(通过人类反馈强化学习)让模型学会拒绝不当请求
    • 增加了拒绝回答敏感问题的能力
    • 提高了对越狱攻击的防御能力
  • 安全测试

    • 邀请专家模拟坏人会怎么做
    • 测试结果显示gpt-oss-120b还达不到造成实际危害的水平
    • 具体测试数据可以在OpenAI的安全报告中查看
  • 专家合作

    • 聘请专业安全团队把关
    • 目前已落实了22条安全建议中的11条
  • 漏洞悬赏

    • 在Kaggle平台上举办了50万美元奖金的安全挑战赛
    • 把发现的漏洞和测试报告都公开了

实测数据:在处理违法内容方面比o4-mini表现更好(0.692分 vs 0.658分),但在遵循指令优先级(0.832分 vs 0.993分)和减少瞎编内容(16.8% vs 23.4%)方面还需改进

使用提醒:严禁用于医疗诊断,建议隐藏模型的思考过程(CoT输出),避免用户看到可能有害的内容

目标和作用

GPT-OSS的目标是让更多人能用上高级AI,减少对收费API的依赖,特别是在发展中国家。它的主要作用包括:

本地化部署的优势

  • 隐私保护:数据在本地上处理,不会上传到云端,特别适合医疗、金融和政府等敏感领域
  • 响应更快:本地运行,不用等待云端返回结果
  • 全球普及:AI Sweden、Orange和Snowflake等机构正在用GPT-OSS开发符合当地需求的AI工具

推动AI创新

  • 高度可定制:开发者可以自由调整模型,打造专用工具,比如编程助手、教育应用等
  • 微软助力:结合Azure AI Foundry和Windows AI Foundry,企业能更快部署应用,开发者也能更高效地测试和上线新产品

使用限制和注意事项

  1. 医疗禁用不能用于看病或治病,OpenAI明确禁止这类用途

  2. 硬件要求

    • gpt-oss-20b:普通电脑也能运行
    • gpt-oss-120b:需要高性能服务器,普通人可能用不起
  3. 安全风险

    • 虽然做了严格防护,但开源模型仍有被坏人利用的可能
    • OpenAI通过安全策略和持续漏洞检测来降低风险

结论

GPT-OSS 是开源 AI 领域的一个重要进展。它推出了两个实用的大语言模型:gpt-oss-120b 和 gpt-oss-20b。这两个模型不仅功能强大、运行高效,而且容易获取使用。在实际表现上,它们能达到 o4-mini 和 o3-mini 这类商业模型的水平,特别擅长逻辑推理、编程辅助和多语言处理任务。由于采用开放权重设计,用户可以直接在本地安装部署,这样既保护了数据隐私,又减少了响应延迟。

GPT-OSS 获得了微软 Azure 云服务和 Windows 系统的技术支持,并配备了完善的安全防护方案,这些都为它在全球各行业的创新应用提供了支持。开发者可以通过以下途径使用这些模型:

  • 在 Hugging Face 平台获取模型
  • 访问官网 gpt-oss.com 进行试用
  • 参考 OpenAI 提供的 Cookbook 技术手册获取部署指南
相关推荐
2501_924879365 小时前
口罩识别场景误报率↓79%:陌讯多模态融合算法实战解析
人工智能·深度学习·算法·目标检测·智慧城市
万粉变现经纪人6 小时前
如何解决pip安装报错ModuleNotFoundError: No module named ‘keras’问题
人工智能·python·深度学习·scrapy·pycharm·keras·pip
whaosoft-1436 小时前
51c自动驾驶~合集12
人工智能
Chan166 小时前
【智能协同云图库】第七期:基于AI调用阿里云百炼大模型,实现AI图片编辑功能
java·人工智能·spring boot·后端·spring·ai·ai作画
计算机科研圈6 小时前
字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍
人工智能·语言模型·自然语言处理·数据挖掘·开源·字节
Christo36 小时前
TFS-2022《A Novel Data-Driven Approach to Autonomous Fuzzy Clustering》
人工智能·算法·机器学习·支持向量机·tfs
陈哥聊测试6 小时前
Coze开源了!意味着什么?
人工智能·ai·开源·项目管理·项目管理软件
FL16238631296 小时前
室内液体撒漏泄漏识别分割数据集labelme格式2576张1类别
人工智能·深度学习
哈__6 小时前
PromptPilot搭配Doubao-seed-1.6:定制你需要的AI提示prompt
大数据·人工智能·promptpilot