全网开测GPT-oss!技术架构也扒明白了

全网开扒 GPT-oss,惊喜发现......

奥特曼还是谦虚了,这性能岂止是 o4-mini 的水平,直接 SOTA 击穿一众开源模型。

不仅轻松通过多项性能测试,网友也整起了各种花活:

论文解读、整理数据,甚至造出类似于 Grok 4 Heavy 的 GPT-oss Pro 版。

背后架构也是被大佬们挖掘得明明白白,只能说开源真妙哇!

终于理解奥特曼提前预告的那句话是啥意思了:

即将进入 SaaS 的快时尚时代。

估计接下来 OpenAI 还有不少好东西要陆续发布......

全网开测 GPT-oss

首先,全网最关注的基准测试新鲜出炉,GPT-oss 直接登顶开源模型王座

横扫 GPQA Diamond、AIME 2024、AIME 2025 和 Codeforces 榜单,超越 DeepSeek R1、Qwen3、Llama 4、Kimi K2 等一众开源模型。

不过在 MMLU 上确实还是 Qwen3-235B 更胜一筹,Kimi-K2 也在 SWE-Bench 上得分更高。

在核心推理基准测试中,GPT-oss 实现了与 o4-mini 等同的效果,可以在单个 80GB 的 GPU 上高效运行。

另外在一些常见基准测试中,性能也比肩 o3-mini,且只需要一个 16GB 内存的边缘设备,预计 GPT-oss 将会成为本地推理或快速迭代的理想选择,而无需昂贵的基础设施。

最小的 20B 模型可以轻松通过以下三项编码测试,比一些规模远超过它 2-3 倍的模型效果要好得多:

  • 模拟球在旋转六边形内弹跳,GPT-oss 以较高的准确性尽可能还原了真实物理情况。

    另外,AWS 今天也宣布将通过 Amazon Bedrock 和 Amazon SageMaker AI 平台正式上线该 OpenAI 开源模型,直接能够快速便捷地构建生产式 AI 应用。

    除了民间网友的实测,一些专业大佬们也加入了这场开源风暴。

    吴恩达测试 GPT-oss-120B 后,认为其性能相当强大:

    Qwen 著名研究员 Binyuan Hui 也表示如果 GPT-oss 完全使用的是合成数据训练,那么该方法将有助于小模型实现更好的性能。

    也欢迎屏幕前的你动手体验 GPT-oss,并在评论区留下你的实测结果。

    参考链接:
    1x.com/rasbt/statu...
    2cookbook.openai.com/articles/gp...
    3x.com/mattshumer_...
    4x.com/RafaCrackYT...
    5x.com/hud_evals/s...
    6simonwillison.net/2025/Aug/5/...
    7x.com/AdamZweiger...
    8x.com/arithmoquin...

    欢迎在评论区留下你的想法!

    --- ---

相关推荐
Jartto7 小时前
手搓一个 Claude Code 硬件副屏:3D 打印外壳 + 本地状态机实现 AI 任务可视化
aigc·ai编程·claude
向量引擎8 小时前
多模型 API 网关接入实践:统一 Base URL、API Key 管理与故障排查
人工智能·gpt·ai编程·ai写作·key
chsmiao9 小时前
张量(Tensor)
深度学习·ai编程
霸道流氓气质10 小时前
完全本地、免费、离线的AI编程助手:Ollama + Continue 完全指南
ai编程
超哥--10 小时前
B站视频内容智能分析系统(二):Docker Compose 一键部署
ai编程
摸鱼同学11 小时前
04-Embedding 和向量数据库:让机器真正理解语义
ai·chatgpt·embedding·agent·向量数据库
searchforAI11 小时前
2026年AI笔记工具对比实测:NotebookLM、通义听悟、Ai好记怎么选?
人工智能·笔记·gpt·ai·whisper·音视频·语音识别
winlife_12 小时前
全程用 AI 做一款商业级手游 · EP1 地基:先搭框架层,不急着写玩法
unity·ai编程·游戏架构·mcp·框架设计·funplay
春风野草12 小时前
第五章 记忆系统不是假装记住——3层记忆架构的坑与遗忘的艺术
人工智能·ai编程
小鹿软件办公12 小时前
OpenAI 推出 ChatGPT 记忆功能重大升级,准确率提升至 82.8%
chatgpt·openai