4o-mini 只有 8B,o1 也才 300B!微软论文意外曝光 GPT 核心机密

微软又把 OpenAI 的机密泄露了??在论文中明晃晃写着:

o1-preview 约 300B 参数,GPT-4o 约 200B,GPT-4o-mini 约 8B......‍

英伟达 2024 年初发布 B200 时,就摊牌了 GPT-4 是 1.8T MoE 也就是 1800B,这里微软的数字更精确,为 1.76T

除此之外,论文中给 OpenAI 的 mini 系列,Claude3.5 Sonnet 也都附上了参数,总结如下:

  • o1-preview 约 300B;o1-mini 约 100B

  • GPT-4o 约 200B;GPT-4o-mini 约 8B

  • Claude 3.5 Sonnet 2024-10-22 版本约 175B

  • 微软自己的 Phi-3-7B,这个不用约了就是 7B

虽然论文中后面也有免责声明:

确切数据尚未公开,这里大部分数字是估计的。

但还是有不少人觉得事情没这么简单。

比如为什么唯独没有放谷歌 Gemini 模型的参数估计?或许他们对放出来的数字还是有信心的。

也有人认为,大多数模型都是在英伟达 GPU 上运行的,所以可以通过 token 生成速度来估计。

只有谷歌模型是在 TPU 上运行的,所以不好估计。

而且微软也不是第一次干这事了。

23 年 10 月,微软就在一篇论文里 "意外" 曝出 GPT-3.5-Turbo 模型的 20B 参数,在后续论文版本中又删除了这一信息。

就说你是故意的还是不小心的?

微软这篇论文说了什么

实际上,原论文介绍了一项与医学相关的 benchmark------MEDEC。

12 月 26 日就已经发布,不过是比较垂直领域的论文,可能非相关方向的人都不会看,年后才被列文虎克网友们发现。

研究起因是,据美国医疗机构调查显示,有 1/5 的患者在阅读临床笔记时报告发现了错误,而 40% 的患者认为这些错误可能影响他们的治疗。

而且另一方面,LLMs(大语言模型)被越来越多的用于医学文档任务(如生成诊疗方法)。

因此,MEDEC 此番有两个任务。一是识别并发现临床笔记中的错误;二是还能予以改正。

为了进行研究,MEDEC 数据集包含 3848 份临床文本,其中包括来自三个美国医院系统的 488 份临床笔记,这些笔记之前未被任何 LLM 见过。

它涵盖五种类型的错误(诊断、管理、治疗、药物治疗和致病因子),这些错误类型是通过分析医学委员会考试中最常见的问题类型选择的,并由 8 位医疗人员参与错误标注。

而参数泄露即发生在实验环节

按照实验设计,研究者将选取近期主流的大模型和小模型来参与笔记识别和纠错。

而就在介绍最终选定的模型时,模型参数、发布时间一下子都被公开了。

对了,省去中间过程,这项研究得出的结论是:Claude 3.5 Sonnet 在错误标志检测方面优于其他 LLM 方法,得分为 70.16,第二名是 o1-mini。

网友:按价格算合理

每一次,ChatGPT 相关模型架构和参数泄露,都会引起轩然大波,这次也不例外。

23 年 10 月,微软论文声称 GPT-3.5-Turbo 只有 20B 参数的时候,就有人感叹:难怪 OpenAI 对开源模型这么紧张。

24 年 3 月,英伟达确认 GPT-4 是 1.8T MoE,而 2000 张 B200 可以在 90 天内完成训练的时候,大家觉得 MoE 已经且仍将是大模型架构趋势。

这一次,基于微软估计的数据,网友们主要有几个关注点:

如果 Claude 3.5 Sonnet 真的比 GPT-4o 还小, 那 Anthropic 团队就拥有技术优势。

以及不相信 GPT-4o-mini 只有 8B 这么小。

不过此前也有人根据推理成本来算,4o-mini 的价格是 3.5-turbo 的 40%,如果 3.5-turbo 的 20B 数字准确,那么 4o-mini 刚好是 8B 左右。

不过这里的 8B 也是指 MoE 模型的激活参数。

总之,OpenAI 大概是不会公布确切数字了。

此前奥特曼征集 2024 年新年愿望,最后公布的清单中还有 "开源"。2025 年的最新版本里,开源已经被去掉了。

论文地址:
arxiv.org/pdf/2412.19...

参考链接:

1x.com/Yuchenj_UW/...

2www.reddit.com/r/LocalLLaM...

--- ---

相关推荐
运维行者_3 小时前
Applications Manager中的Redis监控
大数据·服务器·数据库·人工智能·网络协议
吃好睡好便好3 小时前
提取矩阵某一行或某一列元素
开发语言·人工智能·线性代数·算法·matlab·矩阵
AI数字化笔记5 小时前
【无标题】
人工智能
悦数图数据库5 小时前
图数据库选型指南 2026:从架构、性能、AI 适配三个维度看 悦数科技
数据库·人工智能·架构
北京耐用通信6 小时前
自动化工程师必修课:耐达讯自动化Modbus TCP转PROFIBUS协议转换的核心逻辑与应用
人工智能·物联网·网络协议·自动化·信息与通信
无忧智库6 小时前
某AI漫剧超级工厂AI绘画与分镜自动化生成流水线详细设计方案(WORD)
人工智能·ai作画·自动化
火山引擎开发者社区6 小时前
ArkClaw 全新升级,从 UI 到 Agent 协作全面进化
人工智能
Mininglamp_27186 小时前
会中 AI Skill 架构设计解析:3 种人设 × 7 种能力的技术实现
人工智能·语音识别·硬件·ai agent·skill
墨神谕6 小时前
人工智能(三)— 神经网络的训练
人工智能·神经网络·机器学习
RyFit7 小时前
Java + AI 实战:Spring AI 从入门到企业级落地
java·人工智能·spring