马斯克 Grok-4 碾压所有大模型!“比所有领域博士都聪明”,AIME25 拿满分

全世界屏息以待 1 个小时,马斯克的 "世界最强"Grok 4 终于发布!

一出手,就在 "人类最后考试" 上,成为首个突破 50% 准确率的模型

得益于在训练中原生融入工具,Grok-4 找到刷分法门,Grok-4 Heavy 达到 44.4%,比 Gemini-2.5-Pro 直接提升将近 18 个百分点。

如果测试时训练 + 融入工具,可直接打到 50.7%

马斯克给了个直观对比:普通人类在这一基准上的得分,可能只有 5%。

马斯克直言,Grok-4 比所有领域的博士生都聪明!

它即便裸考 SAT(不提前看题目)也能拿到几乎完美的分数,GRE 考试几乎满分。

......

我估计最晚明年,我们就能看到 Grok 带来的物理学新发现。

此外在其他基准上,Grok-4 也全部刷榜,甚至可以直接满分。

  • GPQA(研究生水平问答)上得分 88.9%;

  • AIME25(美国数学邀请赛)上得分 100%;

  • LCB(Jan-May)上得分 79.4%;

  • HMMT25(数学推理)上得分 96.7%;

  • USAMO25(美国数学奥林匹克竞赛)上得分 61.9%。

为了更直观体现 Grok-4 有多聪明,发布直播了和 ChatGPT 的语音对话对比,从发布来看 Grok-4 确实赢得相当明显。

视频详情

值得一提的,就在发布前夕,OpenAI 预热已久的开源推理模型突然有了风声:可能在下周四(美国时间)发布。

Grok-4 这边也出了些小插曲,比原定时间推迟 1 小时发布,让大家好等了一会儿。

有人调侃:再等一等马上就训练好了,然后直接发布!

言归正传,我们来看 Grok-4 的最新表现。

直播内容

这一次和马斯克一起发布新模型的还是老熟人吴宇怀 Yuhuai(Tony) Wu 和 Jimmy Ba。

吴宇怀 Yuhuai(Tony) Wu,斯坦福大学博士后,博士毕业于多伦多大学。

Jimmy Ba,2023 年斯隆奖得主,Hinton 手下的助理教授,本科到博士都在多伦多大学。

他们俩主要负责介绍模型具体性能。

一开场,马斯克先对 Grok-4 的亮点表现做了一些概括性介绍,比如比博士生还聪明,"这一点值得反复强调"。

然后便开始揭秘 Grok-4 是如何这么强大。

首先,Grok-4 的训练量是 Grok-2 的 100 倍、Grok-3 的 10 倍,这其中在 RL 方面投入了大量计算资源。主要依靠 xAI 建设的 20 万卡计算集群。

Grok 基础模型的前 7 个版本已经在这个月完成训练。

其次,Grok-4 特别强调了在后训练过程中原生融入工具,并通过多项结果对比论证其有效性。

比如在 "人类最后考试 HLE" 上,在训练中融入工具,不仅比不使用工具能取得更高分数,而且 Scaling 提升效率也更高。即增加同样的计算资源,工具融入训练能换来更高智能。

测试时训练下这一分数还能进一步提升 10 个百分点。

通过这一方法,Grok-4 能灵活调用工具完成各种复杂任务。

发布直播中主要展示了几个 demo。

  • 强大推理能力:基于预测市场数据,预测 MLB 世界大赛胜率(给出道奇队胜率 21.6%)
  • 可视化理解:通过后牛顿近似模型模拟黑洞引力波碰撞,生成真实的波形视觉动画。
  • 还有联网找到 xAI 员工中头像最古怪的人:

这些都很好展示了 Grok-4 的数学、推理、多模态理解等方面能力。

此外,发布还展示了 Grok-4 在编程、药物发现等领域能力。

在 Live Coding Bench 编程测试上几乎满分,而且预告了未来还将推出专门的快速 + 智能编程模型。

在 RKG 药物基准中,成为唯一突破 10% 准确率的模型。

还要在真实世界场景中,Grok-4 的表现也值得关注,比如在自动零售 bench 上排名第一。

还能协助生物医疗领域筛选假设、分析数据。

以及在马斯克忠爱的游戏领域,Grok-4 现在可以设计和构建视频游戏了,包括资源获取、写代码等,只需 4 个小时就能完成一款第一人称射击游戏。

马斯克表示,真正意义上的 AI 视频游戏将会在明年出现,之前他也成立了工作室来做 AI 游戏。

最后,马斯克还透露了 Grok 系列接下来的计划:马上会发一个编程模型,后面多模态 Agent、视频生成模型也都在路上了。

体验方面还和之前类似,订阅 SuperGrok------30 美元 / 月或 300 美元 / 年。

Grok-4 差点熄火

几乎是老规矩了,Grok-4 的上线也是一波三折。

最开始马斯克打算发的版本其实是 3.5,但是到了 6 月,马斯克觉得这个版本值得称为 Grok-4。

当时说,要用 Grok 重写整个人类知识体系,然后在这个版本上训练 Grok 的最新模型。

但这还没完,就在老马已经确定 Grok-4 就要今天发了,结果昨天 Grok-3 被曝出现不当言论引发轩然大波。随后官方表示正在删除此类帖子,并禁止 Grok 再发表此类言论。

然后,今天的发布就比原定推迟了一个小时。

看着直播间的老马,突然觉得他有点疲惫。

不过从这次发布来看,Grok 系列的矩阵正在逐步扩大。大热的多模态、视频模式,都已经安排上了。

以及最近有人发现,特斯拉最新固件里已经偷偷加上了 Grok 的全功能版本,只等激活。

根据猜测,Grok 将会成为特斯拉中的语音助手,比传统的对话 AI 更能理解人类对话,"彻底改变驾驶员与汽车的对话交互方式"。目前似乎可以支持英语、汉语。

此外,马斯克也确认擎天柱人形机器人也将搭载 Grok 语音助手,未来将成为擎天柱人形机器人的大脑。

One More Thing

最近两次模型上新,马斯克都拉着华人科学家一起做发布。

有人发现,Grok 团队里,亚洲面孔似乎已经占半壁江山了。

参考链接:

1\][x.com/xai/status/...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fxai%2Fstatus%2F1943158495588815072 "https://x.com/xai/status/1943158495588815072") \[2\][www.notateslaapp.com/news/2874/t...](https://link.juejin.cn?target=https%3A%2F%2Fwww.notateslaapp.com%2Fnews%2F2874%2Ftesla-to-integrate-xais-grok-into-optimus-helping-bring-the-robot-to-life "https://www.notateslaapp.com/news/2874/tesla-to-integrate-xais-grok-into-optimus-helping-bring-the-robot-to-life") **欢迎在评论区留下你的想法!** --- **完** ---

相关推荐
HyperAI超神经1 小时前
IQuest-Coder-V1:基于代码流训练的编程逻辑增强模型;Human Face Emotions:基于多标注维度的人脸情绪识别数据集
人工智能·深度学习·学习·机器学习·ai编程
砚边数影6 小时前
AI数学基础(一):线性代数核心,向量/矩阵运算的Java实现
java·数据库·人工智能·线性代数·矩阵·ai编程·金仓数据库
Darkbluelr6 小时前
[开源发布] Dev-PlayBooks:让 AI 编程不再“抽卡”,面向 Claude/Codex等 的确定性Spec+TDD开发工作流框架
人工智能·软件工程·ai编程
github.com/starRTC7 小时前
Claude Code中英文系列教程:在云上虚拟机并行运行多个会话
ai编程
HyperAI超神经8 小时前
【vLLM 学习】Rlhf Utils
人工智能·深度学习·学习·机器学习·ai编程·vllm
小雨青年11 小时前
开篇 2026 开发者新范式 本地逻辑引擎结合云端国产大模型架构详解
ai编程
cloud studio AI应用12 小时前
CodeBuddy 一周更新亮点丨IDE 新增 Hooks 等功能、CLI 新增Prompt 建议、SDK 自定义工具支持
腾讯云·ai编程·codebuddy
大闲在人14 小时前
Trae builder 实战: 让 C++ 函数像 Python 一样返回多个值
c++·python·ai编程
ElfBoard14 小时前
ElfBoard技术贴|如何在ELF-RK3506开发板上构建AI编程环境
c语言·开发语言·单片机·嵌入式硬件·智能路由器·ai编程·嵌入式开发
hbstream海之滨视频网络技术15 小时前
国内三大AI编程IDE对比(一):直观印象与模型能力
ide·ai编程