马斯克 Grok-4 碾压所有大模型！“比所有领域博士都聪明”，AIME25 拿满分

量子位2025-07-10 16:15

全世界屏息以待 1 个小时，马斯克的 "世界最强"Grok 4 终于发布！

一出手，就在 "人类最后考试" 上，成为首个突破 50% 准确率的模型。

得益于在训练中原生融入工具，Grok-4 找到刷分法门，Grok-4 Heavy 达到 44.4%，比 Gemini-2.5-Pro 直接提升将近 18 个百分点。

如果测试时训练 + 融入工具，可直接打到 50.7%。

马斯克给了个直观对比：普通人类在这一基准上的得分，可能只有 5%。

马斯克直言，Grok-4 比所有领域的博士生都聪明！

它即便裸考 SAT（不提前看题目）也能拿到几乎完美的分数，GRE 考试几乎满分。

......

我估计最晚明年，我们就能看到 Grok 带来的物理学新发现。

此外在其他基准上，Grok-4 也全部刷榜，甚至可以直接满分。

GPQA（研究生水平问答）上得分 88.9%；
AIME25（美国数学邀请赛）上得分 100%；
LCB（Jan-May）上得分 79.4%；
HMMT25（数学推理）上得分 96.7%；
USAMO25（美国数学奥林匹克竞赛）上得分 61.9%。

为了更直观体现 Grok-4 有多聪明，发布直播了和 ChatGPT 的语音对话对比，从发布来看 Grok-4 确实赢得相当明显。

值得一提的，就在发布前夕，OpenAI 预热已久的开源推理模型突然有了风声：可能在下周四（美国时间）发布。

Grok-4 这边也出了些小插曲，比原定时间推迟 1 小时发布，让大家好等了一会儿。

有人调侃：再等一等马上就训练好了，然后直接发布！

言归正传，我们来看 Grok-4 的最新表现。

直播内容

这一次和马斯克一起发布新模型的还是老熟人吴宇怀 Yuhuai（Tony） Wu 和 Jimmy Ba。

吴宇怀 Yuhuai（Tony） Wu，斯坦福大学博士后，博士毕业于多伦多大学。

Jimmy Ba，2023 年斯隆奖得主，Hinton 手下的助理教授，本科到博士都在多伦多大学。

他们俩主要负责介绍模型具体性能。

一开场，马斯克先对 Grok-4 的亮点表现做了一些概括性介绍，比如比博士生还聪明，"这一点值得反复强调"。

然后便开始揭秘 Grok-4 是如何这么强大。

首先，Grok-4 的训练量是 Grok-2 的 100 倍、Grok-3 的 10 倍，这其中在 RL 方面投入了大量计算资源。主要依靠 xAI 建设的 20 万卡计算集群。

Grok 基础模型的前 7 个版本已经在这个月完成训练。

其次，Grok-4 特别强调了在后训练过程中原生融入工具，并通过多项结果对比论证其有效性。

比如在 "人类最后考试 HLE" 上，在训练中融入工具，不仅比不使用工具能取得更高分数，而且 Scaling 提升效率也更高。即增加同样的计算资源，工具融入训练能换来更高智能。

测试时训练下这一分数还能进一步提升 10 个百分点。

通过这一方法，Grok-4 能灵活调用工具完成各种复杂任务。

发布直播中主要展示了几个 demo。

强大推理能力：基于预测市场数据，预测 MLB 世界大赛胜率（给出道奇队胜率 21.6%）

可视化理解：通过后牛顿近似模型模拟黑洞引力波碰撞，生成真实的波形视觉动画。

还有联网找到 xAI 员工中头像最古怪的人：

这些都很好展示了 Grok-4 的数学、推理、多模态理解等方面能力。

此外，发布还展示了 Grok-4 在编程、药物发现等领域能力。

在 Live Coding Bench 编程测试上几乎满分，而且预告了未来还将推出专门的快速 + 智能编程模型。

在 RKG 药物基准中，成为唯一突破 10% 准确率的模型。

还要在真实世界场景中，Grok-4 的表现也值得关注，比如在自动零售 bench 上排名第一。

还能协助生物医疗领域筛选假设、分析数据。

以及在马斯克忠爱的游戏领域，Grok-4 现在可以设计和构建视频游戏了，包括资源获取、写代码等，只需 4 个小时就能完成一款第一人称射击游戏。

马斯克表示，真正意义上的 AI 视频游戏将会在明年出现，之前他也成立了工作室来做 AI 游戏。

最后，马斯克还透露了 Grok 系列接下来的计划：马上会发一个编程模型，后面多模态 Agent、视频生成模型也都在路上了。

体验方面还和之前类似，订阅 SuperGrok------30 美元 / 月或 300 美元 / 年。

Grok-4 差点熄火

几乎是老规矩了，Grok-4 的上线也是一波三折。

最开始马斯克打算发的版本其实是 3.5，但是到了 6 月，马斯克觉得这个版本值得称为 Grok-4。

当时说，要用 Grok 重写整个人类知识体系，然后在这个版本上训练 Grok 的最新模型。

但这还没完，就在老马已经确定 Grok-4 就要今天发了，结果昨天 Grok-3 被曝出现不当言论引发轩然大波。随后官方表示正在删除此类帖子，并禁止 Grok 再发表此类言论。

然后，今天的发布就比原定推迟了一个小时。

看着直播间的老马，突然觉得他有点疲惫。

不过从这次发布来看，Grok 系列的矩阵正在逐步扩大。大热的多模态、视频模式，都已经安排上了。

以及最近有人发现，特斯拉最新固件里已经偷偷加上了 Grok 的全功能版本，只等激活。

根据猜测，Grok 将会成为特斯拉中的语音助手，比传统的对话 AI 更能理解人类对话，"彻底改变驾驶员与汽车的对话交互方式"。目前似乎可以支持英语、汉语。

此外，马斯克也确认擎天柱人形机器人也将搭载 Grok 语音助手，未来将成为擎天柱人形机器人的大脑。

One More Thing

最近两次模型上新，马斯克都拉着华人科学家一起做发布。

有人发现，Grok 团队里，亚洲面孔似乎已经占半壁江山了。

参考链接：

$1$ x.com/xai/status/...

$2$ www.notateslaapp.com/news/2874/t...

欢迎在评论区留下你的想法！

--- 完 ---

上一篇：【25软考网工】第十章（3）网络冗余设计、广域网接入技术

下一篇：分库分表之实战-sharding-JDBC绑定表配置实战

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……