全网开测GPT-oss!技术架构也扒明白了

全网开扒 GPT-oss,惊喜发现......

奥特曼还是谦虚了,这性能岂止是 o4-mini 的水平,直接 SOTA 击穿一众开源模型。

不仅轻松通过多项性能测试,网友也整起了各种花活:

论文解读、整理数据,甚至造出类似于 Grok 4 Heavy 的 GPT-oss Pro 版。

背后架构也是被大佬们挖掘得明明白白,只能说开源真妙哇!

终于理解奥特曼提前预告的那句话是啥意思了:

即将进入 SaaS 的快时尚时代。

估计接下来 OpenAI 还有不少好东西要陆续发布......

全网开测 GPT-oss

首先,全网最关注的基准测试新鲜出炉,GPT-oss 直接登顶开源模型王座

横扫 GPQA Diamond、AIME 2024、AIME 2025 和 Codeforces 榜单,超越 DeepSeek R1、Qwen3、Llama 4、Kimi K2 等一众开源模型。

不过在 MMLU 上确实还是 Qwen3-235B 更胜一筹,Kimi-K2 也在 SWE-Bench 上得分更高。

在核心推理基准测试中,GPT-oss 实现了与 o4-mini 等同的效果,可以在单个 80GB 的 GPU 上高效运行。

另外在一些常见基准测试中,性能也比肩 o3-mini,且只需要一个 16GB 内存的边缘设备,预计 GPT-oss 将会成为本地推理或快速迭代的理想选择,而无需昂贵的基础设施。

最小的 20B 模型可以轻松通过以下三项编码测试,比一些规模远超过它 2-3 倍的模型效果要好得多:

  • 模拟球在旋转六边形内弹跳,GPT-oss 以较高的准确性尽可能还原了真实物理情况。

    另外,AWS 今天也宣布将通过 Amazon Bedrock 和 Amazon SageMaker AI 平台正式上线该 OpenAI 开源模型,直接能够快速便捷地构建生产式 AI 应用。

    除了民间网友的实测,一些专业大佬们也加入了这场开源风暴。

    吴恩达测试 GPT-oss-120B 后,认为其性能相当强大:

    Qwen 著名研究员 Binyuan Hui 也表示如果 GPT-oss 完全使用的是合成数据训练,那么该方法将有助于小模型实现更好的性能。

    也欢迎屏幕前的你动手体验 GPT-oss,并在评论区留下你的实测结果。

    *参考链接:

    1\][x.com/rasbt/statu...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Frasbt%2Fstatus%2F1952842273848279364 "https://x.com/rasbt/status/1952842273848279364") \[2\][cookbook.openai.com/articles/gp...](https://link.juejin.cn?target=https%3A%2F%2Fcookbook.openai.com%2Farticles%2Fgpt-oss%2Ffine-tune-transfomers "https://cookbook.openai.com/articles/gpt-oss/fine-tune-transfomers") \[3\][x.com/mattshumer_...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fmattshumer_%2Fstatus%2F1952791480210162060 "https://x.com/mattshumer_/status/1952791480210162060") \[4\][x.com/RafaCrackYT...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FRafaCrackYT%2Fstatus%2F19528380874420882 "https://x.com/RafaCrackYT/status/19528380874420882") \[5\][x.com/hud_evals/s...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fhud_evals%2Fstatus%2F1952846781286658393 "https://x.com/hud_evals/status/1952846781286658393") \[6\][simonwillison.net/2025/Aug/5/...](https://link.juejin.cn?target=https%3A%2F%2Fsimonwillison.net%2F2025%2FAug%2F5%2Fgpt-oss%2F "https://simonwillison.net/2025/Aug/5/gpt-oss/") \[7\][x.com/AdamZweiger...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FAdamZweiger%2Fstatus%2F1952799642636148917 "https://x.com/AdamZweiger/status/1952799642636148917") \[8\][x.com/arithmoquin...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Farithmoquine "https://x.com/arithmoquine")* **欢迎在评论区留下你的想法!** --- **完** ---

相关推荐
fanstuck17 小时前
从0到提交,如何用 ChatGPT 全流程参与建模比赛的
大数据·数学建模·语言模型·chatgpt·数据挖掘
程序员老刘·1 天前
Android Studio Otter 3 发布:日常开发选AS还是Cursor?
flutter·android studio·ai编程·跨平台开发·客户端开发
acai_polo1 天前
如何在国内合规、稳定地使用GPT/Claude/Gemini API?中转服务全解析
人工智能·gpt·ai·语言模型·ai作画
有颜有货1 天前
GEO(生成引擎优化)是什么?GEO的工作流程详解
人工智能·chatgpt·geo
数研小生1 天前
用爬虫数据训练 ChatGPT 行业知识库:从数据采集到模型微调的实战指南
人工智能·爬虫·chatgpt
JMchen1231 天前
AI编程范式转移:深度解析人机协同编码的实战进阶与未来架构
人工智能·经验分享·python·深度学习·架构·pycharm·ai编程
HetFrame1 天前
大模型驱动的禅道任务自动化规划与创建
python·ai·自动化·大模型·ai编程·任务·禅道
迈火2 天前
SD - Latent - Interposer:解锁Stable Diffusion潜在空间的创意工具
人工智能·gpt·计算机视觉·stable diffusion·aigc·语音识别·midjourney
Ashley_Amanda2 天前
主流AI编程工具深度解析
ai编程