时隔六年,OpenAI再次发布开源模型gpt-oss-120b,全网狂欢

一、gpt-oss开源模型

奥特曼发布了两款开源模型gpt-oss-120b 和 gpt-oss-20b。

oss是 Open Source(开源) 的缩写。这意味着OpenAI打算把这款引擎的"设计图纸"和"核心零件"公之于众!

就像可口可乐公开了他们的配方,任何人都可以根据这个配方去尝试制作自己的可乐,甚至进行改良,开发出"樱桃味"或者"香草味"的可乐。

谁给你的勇气?难产的GPT-5,还是贵如黄金的Claude Opus 4.1?

120b,这两个数字和字母代表了模型的"尺寸"和"马力"。

这里的"b"是"Billion"(十亿),指的是模型的参数数量。数量越多,通常意味着模型更聪明、知识更渊博、能力更强。

gpt-oss-120b (1200亿参数模型)的性能非常接近甚至可能媲美当前顶尖的闭源大模型,能处理非常复杂的推理、创作和对话任务。

gpt-oss-20b (200亿参数模型),虽然参数量小一些,但200亿参数的规模已经远超很多市面上的开源模型,对于绝大多数任务来说都绰绰有余。

二、开源模型的里程碑突破

OpenAI 的开源模型 GPT-OSS-120b 正在打破付费与开源的性能鸿沟。

💪 全方位接近顶级水平

  • Codeforces 编程:2622 分,表现超越所有其他开源模型
  • MMLU 学术测试:90% 准确率,仅比 o3 低 3.4%
  • HLE人类终极考试:19% 的准确率,甚至超过了 OpenAI 自家的顶级付费模型o4-mini(17.7%)
  • AIME 数学竞赛:97.9% 准确率,与 o3 仅差 0.8%

三、主要更新和特点

1、全新架构

两个模型均采用 Transformer 架构,结合混合专家(Mixture-of-Experts, MoE)设计,通过仅激活部分参数来提高效率。以下是具体参数对比:

模型 总参数量 每次激活参数 内存需求 上下文窗口 基准测试对比
gpt-oss-120b 1170 亿 51 亿 80GB 128,000 令牌 接近 o4-mini,19% 在 Humanity's Last Exam
gpt-oss-20b 210 亿 36 亿 16GB 或更多 128,000 令牌 类似 o3-mini,数学和编码任务表现突出

gpt-oss-120b:设计用于生产环境和高推理需求任务,如复杂数学问题、编码和 STEM 领域知识。它在核心推理基准测试中接近 OpenAI 的 o4-mini 模型表现,特别是在 Codeforces、MMLU、HLE 和 TauBench 上表现优于 o3-mini,并在 HealthBench、AIME 2024 和 2025 上超过 o4-mini。需要 80GB 内存,适合在单高性能 GPU(如 H100)上运行。

gpt-oss-20b:针对低延迟和本地化或专业化用例设计,可在边缘设备上运行,仅需 16GB 内存,适合消费级硬件如笔记本电脑或手机。其性能与 o3-mini 相当,尤其在数学和编码任务上表现突出,适合快速迭代和本地推理。

2、架构创新

  1. 内置链式思考(CoT)能力,提供完整的推理过程,便于调试和增强用户对输出的信任。
  2. 工具使用能力,包括函数调用、网页搜索、Python 代码执行等代理功能,增强了自动化和集成能力。
  3. 媲美付费模型的上下文长度,128,000 令牌的上下文长度支持处理超长输入或对话,显著优于许多现有模型。
  4. 采用 Apache 2.0 许可证,完全开源,可商用

3、兼容性

完全兼容OpenAI的API接口,所以如果你之前用过他们的闭源模型,切换起来很顺手。它们是纯文本模型,不处理图像或声音,但速度快、延迟低,适合实时应用。

四、gpt-oss-120b大战Qwen3 Thinking

GPT-OSS作为OpenAI刚开源的模型,最大亮点就是推理能力强。它能像人类一样"展示思考过程",不只给答案,还会解释怎么得出的。

Twitter知名博主Akshay Pachaar第一时间做了一个测试,对比了GPT-OSS和目前开源社区中表现优秀的推理模型Qwen3 Thinking。

通过这种对比测试,开发者可以了解GPT-OSS在复杂逻辑推理任务上的实际表现,判断是否适合自己的应用场景。

国内直接使用gpt-oss-120b

谷歌浏览器访问:www.nezhasoft.cloud

私信哪吒,备注体验ai,领取体验码。

还包含了ChatGPT4o、o4-mini-high、o3、GPT4.5、GPT4.1、Claude Sonnet 4、Gemini 2.5 Pro、Grok4、DeepSeek R1 0528等模型。

五、gpt-oss-120b性能实测

1、写作

全国二卷作文题目:"梦的赠予"

材料内容: "昨夜闲潭梦落花""我欲因之梦吴越""铁马冰河入梦来"......梦往往以一种独特的方式呈现我们的感受和期冀,为我们打开更浩瀚的天空。我们也常常向别人讲述自己的梦,用文字记录自己的梦,以行动实现自己的梦。

如果有一天,我们能够将梦赠予他人......

写作要求: 以上材料引发了你怎样的联想和思考?请写一篇文章。要求选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

2、读取文件

读取文件内容,总结一份学术论文大纲,通俗易懂,2000字,中文

3、编码

用户在秒杀页面疯狂点击"立即购买",系统必须高效且线程安全地减少商品库存,防止超卖。如何在高并发场景下安全扣减库存?

相关推荐
郁大锤5 小时前
OpenAI responses使用教程(三) ——Responses create python SDK 介绍
人工智能·python·ai·openai
机器之心1 天前
全球第二、国内第一!最强文本的文心5.0 Preview一手实测来了
人工智能·openai
机器之心1 天前
突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化
人工智能·openai
Orange_sparkle1 天前
关于dify中http节点下载文件时,文件名不为原始文件名问题解决
人工智能·http·chatgpt·dify
Cpt10242 天前
【Debug】ChatGPT - Cli CodeX 登录报错 409 Route Error (409 ): 解决方案
chatgpt
FreeBuf_2 天前
GPT-4o与GPT-5存在七项零点击攻击漏洞
gpt·chatgpt
张艾拉 Fun AI Everyday3 天前
从 ChatGPT 到 OpenEvidence:AI 医疗的正确打开方式
人工智能·chatgpt
zhangfeng11333 天前
DrugGPT chatgpt druggen 之间的关系 ,DrugGPT是基于gpt2基础上开发的
chatgpt·生物信息
Ztop3 天前
GPT-5.1 已确认!OpenAI下一步推理升级?对决 Gemini 3 在即
人工智能·gpt·chatgpt
檀越剑指大厂4 天前
【ChatGPT系列】ChatGPT Atlas:未来浏览器的智慧体验
chatgpt