马斯克 Grok-4 碾压所有大模型!“比所有领域博士都聪明”,AIME25 拿满分

全世界屏息以待 1 个小时,马斯克的 "世界最强"Grok 4 终于发布!

一出手,就在 "人类最后考试" 上,成为首个突破 50% 准确率的模型

得益于在训练中原生融入工具,Grok-4 找到刷分法门,Grok-4 Heavy 达到 44.4%,比 Gemini-2.5-Pro 直接提升将近 18 个百分点。

如果测试时训练 + 融入工具,可直接打到 50.7%

马斯克给了个直观对比:普通人类在这一基准上的得分,可能只有 5%。

马斯克直言,Grok-4 比所有领域的博士生都聪明!

它即便裸考 SAT(不提前看题目)也能拿到几乎完美的分数,GRE 考试几乎满分。

......

我估计最晚明年,我们就能看到 Grok 带来的物理学新发现。

此外在其他基准上,Grok-4 也全部刷榜,甚至可以直接满分。

  • GPQA(研究生水平问答)上得分 88.9%;

  • AIME25(美国数学邀请赛)上得分 100%;

  • LCB(Jan-May)上得分 79.4%;

  • HMMT25(数学推理)上得分 96.7%;

  • USAMO25(美国数学奥林匹克竞赛)上得分 61.9%。

为了更直观体现 Grok-4 有多聪明,发布直播了和 ChatGPT 的语音对话对比,从发布来看 Grok-4 确实赢得相当明显。

视频详情

值得一提的,就在发布前夕,OpenAI 预热已久的开源推理模型突然有了风声:可能在下周四(美国时间)发布。

Grok-4 这边也出了些小插曲,比原定时间推迟 1 小时发布,让大家好等了一会儿。

有人调侃:再等一等马上就训练好了,然后直接发布!

言归正传,我们来看 Grok-4 的最新表现。

直播内容

这一次和马斯克一起发布新模型的还是老熟人吴宇怀 Yuhuai(Tony) Wu 和 Jimmy Ba。

吴宇怀 Yuhuai(Tony) Wu,斯坦福大学博士后,博士毕业于多伦多大学。

Jimmy Ba,2023 年斯隆奖得主,Hinton 手下的助理教授,本科到博士都在多伦多大学。

他们俩主要负责介绍模型具体性能。

一开场,马斯克先对 Grok-4 的亮点表现做了一些概括性介绍,比如比博士生还聪明,"这一点值得反复强调"。

然后便开始揭秘 Grok-4 是如何这么强大。

首先,Grok-4 的训练量是 Grok-2 的 100 倍、Grok-3 的 10 倍,这其中在 RL 方面投入了大量计算资源。主要依靠 xAI 建设的 20 万卡计算集群。

Grok 基础模型的前 7 个版本已经在这个月完成训练。

其次,Grok-4 特别强调了在后训练过程中原生融入工具,并通过多项结果对比论证其有效性。

比如在 "人类最后考试 HLE" 上,在训练中融入工具,不仅比不使用工具能取得更高分数,而且 Scaling 提升效率也更高。即增加同样的计算资源,工具融入训练能换来更高智能。

测试时训练下这一分数还能进一步提升 10 个百分点。

通过这一方法,Grok-4 能灵活调用工具完成各种复杂任务。

发布直播中主要展示了几个 demo。

  • 强大推理能力:基于预测市场数据,预测 MLB 世界大赛胜率(给出道奇队胜率 21.6%)
  • 可视化理解:通过后牛顿近似模型模拟黑洞引力波碰撞,生成真实的波形视觉动画。
  • 还有联网找到 xAI 员工中头像最古怪的人:

这些都很好展示了 Grok-4 的数学、推理、多模态理解等方面能力。

此外,发布还展示了 Grok-4 在编程、药物发现等领域能力。

在 Live Coding Bench 编程测试上几乎满分,而且预告了未来还将推出专门的快速 + 智能编程模型。

在 RKG 药物基准中,成为唯一突破 10% 准确率的模型。

还要在真实世界场景中,Grok-4 的表现也值得关注,比如在自动零售 bench 上排名第一。

还能协助生物医疗领域筛选假设、分析数据。

以及在马斯克忠爱的游戏领域,Grok-4 现在可以设计和构建视频游戏了,包括资源获取、写代码等,只需 4 个小时就能完成一款第一人称射击游戏。

马斯克表示,真正意义上的 AI 视频游戏将会在明年出现,之前他也成立了工作室来做 AI 游戏。

最后,马斯克还透露了 Grok 系列接下来的计划:马上会发一个编程模型,后面多模态 Agent、视频生成模型也都在路上了。

体验方面还和之前类似,订阅 SuperGrok------30 美元 / 月或 300 美元 / 年。

Grok-4 差点熄火

几乎是老规矩了,Grok-4 的上线也是一波三折。

最开始马斯克打算发的版本其实是 3.5,但是到了 6 月,马斯克觉得这个版本值得称为 Grok-4。

当时说,要用 Grok 重写整个人类知识体系,然后在这个版本上训练 Grok 的最新模型。

但这还没完,就在老马已经确定 Grok-4 就要今天发了,结果昨天 Grok-3 被曝出现不当言论引发轩然大波。随后官方表示正在删除此类帖子,并禁止 Grok 再发表此类言论。

然后,今天的发布就比原定推迟了一个小时。

看着直播间的老马,突然觉得他有点疲惫。

不过从这次发布来看,Grok 系列的矩阵正在逐步扩大。大热的多模态、视频模式,都已经安排上了。

以及最近有人发现,特斯拉最新固件里已经偷偷加上了 Grok 的全功能版本,只等激活。

根据猜测,Grok 将会成为特斯拉中的语音助手,比传统的对话 AI 更能理解人类对话,"彻底改变驾驶员与汽车的对话交互方式"。目前似乎可以支持英语、汉语。

此外,马斯克也确认擎天柱人形机器人也将搭载 Grok 语音助手,未来将成为擎天柱人形机器人的大脑。

One More Thing

最近两次模型上新,马斯克都拉着华人科学家一起做发布。

有人发现,Grok 团队里,亚洲面孔似乎已经占半壁江山了。

参考链接:

1\][x.com/xai/status/...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fxai%2Fstatus%2F1943158495588815072 "https://x.com/xai/status/1943158495588815072") \[2\][www.notateslaapp.com/news/2874/t...](https://link.juejin.cn?target=https%3A%2F%2Fwww.notateslaapp.com%2Fnews%2F2874%2Ftesla-to-integrate-xais-grok-into-optimus-helping-bring-the-robot-to-life "https://www.notateslaapp.com/news/2874/tesla-to-integrate-xais-grok-into-optimus-helping-bring-the-robot-to-life") **欢迎在评论区留下你的想法!** --- **完** ---

相关推荐
Dcs8 小时前
你的 Prompt 都该重写?
人工智能·ai编程
摆烂工程师11 小时前
2025年12月最新的 Google AI One Pro 1年会员教育认证通关指南
前端·后端·ai编程
青瓷看世界15 小时前
鸿蒙开发时AI编程工具codeGenie与Github Copilot的区别
github·copilot·ai编程·harmonyos·codegenie
潘小安15 小时前
【译】别再想着 Figma 了,AI 才是新的设计工具
前端·ai编程·weui
海阔的天空16 小时前
VSCode通过continue插件免费安装AI模型实现自动编程
运维·ide·人工智能·vscode·编辑器·ai编程
HashTang18 小时前
【AI 编程实战】第 1 篇:TRAE SOLO 模式 10 倍速开发商业级全栈小程序
前端·后端·ai编程
深圳蔓延科技20 小时前
机器学习Scikit-learn库的使用技巧
ai编程
jthou@hotmail.com1 天前
OpenAPI 规范技术指南
ai编程·openapi
啊吧怪不啊吧1 天前
从数据到智能体大模型——cozeAI大模型开发(第一篇)
人工智能·ai·语言模型·ai编程
oden1 天前
AI工具互不兼容?MCP协议让所有工具无缝对接(附实战)
aigc·ai编程·mcp