做题王者,实战拉跨!是时候给马斯克的Grok4泼盆冷水了!(Grok 4模型详细测评报告)

前言

美国时间7月9日晚8点,马斯克身穿皮衣召开了人工智能大模型Grok 4 的发布会。尽管发布会临时推迟了一个小时,但简洁干练的发布会风格配合Grok 4演示时的完美表现可谓全程高能。

在发布会的演示中,Grok 4凭一己之力刷爆了所有大模型评测榜单,被戏称为"四最模型"------最懂人类、最会编程、最会推理、Agent能力最强的大模型没有之一。

本篇文章笔者将从Grok 4发布会表现Grok 4实际使用效果 两方面向大家揭示Grok 4模型的性能配不配得上它"史上最强大模型的称号"~

Grok4 模型的API已经开放,至于如何在国内使用呢,大家可以关注我的同名微信公众号: 大模型真好玩 , 私信Grok4使用指南即可获得。

一、Grok4出场插曲

早在发布会前几天,马斯克就高调预告了新一代模型的强大性能,并提出了Grok4相比当前大模型的两个核心优势:

  • 第一性原则: 遇到问题不会套解法,而是深入到问题的最底层,依据最底层的原理进行思考。相比其它模型,Grok4看问题更加透彻,结果也更加准确。

  • 人类最终考试HLE: Grok 4这次挑战的是一个覆盖100+科研领域的博士级跨学科难题组成的数据集,并且大多数问题答案都没有公开,因此HLE能够最客观的测试大模型的能力水平。由于HLE难度太大,就连Gemini2.5 Pro这种顶尖大模型也只有26%的准确率,但Grok 4却达到了35%-45%。

据说马斯克本来是准备发布Grok3.5的,一看新模型性能如此强悍,直接一步到位宣布Grok 4直接发布!

不得不说老马的造势能力十分强,在他这一系列骚操作的加持下,大家对Grok 4的期待值可以说是拉满了。

二、Grok4发布会表现惊艳

平心而论,发布会上Grok4的表现赚足了观众眼球。

2.1 推理能力

推理能力方面, Grok4在数学、逻辑、科研等数据集的评分都是世界第一。AIME高难度数学考试成绩甚至直接满分

2.2 编程能力

在备受关注的编程领域,Grok4超越了Claude3.5 Sonnet ,发布会上这段模拟黑洞对撞的编程,实际效果不仅能严格满足背后的物理规律,而且粒子波纹特效都可圈可点。未来马斯克还计划推出Grok Coding编程模型 ,据称该模型在SWE-Bench上的评分超越了Claude 4 Opus,是目前全球性能最强的大模型。

2.3 多模态能力

Grok 4还拥有多模态功能,不仅支持输入输出图片,还有实时的语音交互,哪怕是现场和GPT 4O的语音模型进行battle, 也丝毫不落下风。

2.4 DeepResearch能力

Grok4 的DeepResearch能力非常强悍,能够深度整理海量的网络信息并根据指令完成长文档编写。

2.5 学习能力

Grok4的学习能力很强。本次发布会引用了一项全新的评估数据集ARC-AGI,专门用于测试模型学习能力。举个例子:让模型根据如下的图片形式去预测最后一张图片的形状。

在这个测试集中,Grok 4取得了仅次于OpenAI o3 pro的第二名的好成绩,

2.6 Agent性能

更重要的是,Grok 4模型拥有目前最顶尖的Agent性能。Vending-Bench数据集是模拟经营自动售货机数据集,在Vending-Bench测试中,大模型需要进行管理库存、联系供应商、设定价格等。人类会根据实际经营效果评估模型的计划与策略能力、以及工具调用能力等,Grok4在这个数据集上评分是第二名Claude Opus4模型的三倍,而这也说明Grok 4是最适合构建Agent智能体的大模型没有之一。

2.7 便捷使用

Grok4发布即可用,目前已登录grok和x主页,但需要开通每个月30的SuperGrok才可以使用。并且如果开通每个月300的SuperGrok Heacy还能使用Grok 4的Heavy模式,在Heavy模式下可以使用内置的多智能体Multi-Agent更好的完成任务。

不得不说发布会上Grok4凭一己之力刷爆了全部榜单,是当之无愧的六边形战士。而且马哥说了,Grok4只是开始,接下来的两个月,马斯克还将继续发布Grok的编程专用模型,Multi-Agent系统以及视频生成模型,可以说我马哥能力很强,野心更大。就发布会上的表现而言,Grok4配得上下面这句话,然而Grok4真的是我们日常模型使用的最佳选择吗?请看我下面内容。

三、 Grok 4做题王者,实战拉跨。

以下内容是笔者引用B站知名大模型博主的实际评测结果,将Grok4模型在编程能力、推理阶段、DeepResearch和长文本编写能力上的表现与DeepSeek-R1-0528作对比(大家可以看看我对DeepSeek-R1-0528的评测

3.1 编程能力

我们首先使用经典的小球翻滚问题评测DeepSeek-R1的能力,提示词如下:

css 复制代码
请生成一个完整的 HTML文件(将 HTML、CSS 和 JavaScript均嵌入单一文件中),模拟一个红色小球在顺时针缓慢旋转的正五边形内部弹跳的动画。要求:
-小球应受重力影响,并在碰到边界时发生反弹;
-小球与多边形之间的碰撞检测要真实;
所有代码应包含在<html>文件内,不要引用外部库或文件;动画要平滑,页面布局适配

结果发现Grok4 输出的代码有误,并不能一次运行,经过检查发现竟然是符号写错了(现在大模型很少犯这种低级问题)

修改之后的实际运行效果如下:

作为对比我们再来看看DeepSeek-R1模型生成的效果,明显要比Grok4优秀。

我们还测试了Grok4编写官网首页的例子,结果Grok4生成的效果如下:

大家再想想我在DeepSeek-R1-0528的评测中的效果,好坏优劣一目了然,说明Grok 4的编程,至少在前端领域远远不如DeepSeek-R1-0528,并未进行单独的功能优化,可能要等到Grok Coding出来才能和DeepSeek等主流模型一较高下吧。

3.2 推理阶段

在推理能力方面,Grok 4也并未展现出发布会上演示的能力,以经典的海盗分赃逻辑题为例:

text 复制代码
假设有7个海盗,他们需要分配一批金币。每个海盗都具有以下特点:绝对理性:每个海盗都会尽量使自己的利益最大化。绝对自私:他们只关心自己的得失,不关心他人的情况。暴力威胁:如果一个提案无法被通过(投票否决,则提议者会被"扔下船"分赃规则按照从首领(编号为1的海盗)到最后一名海盗的顺序,依次由每个海盗提出分赃方案。每名海盗(包括提议者)对提案进行投票。提案若获得 至少一半人数(包括自己)或以上的支持则通过;否则,提议者被抛弃,剩下的海盗继盗之间按照逻辑进行投票,遵循理性自私的行揆((提议者)需要提出一个分赃方案,使:己不会被扔下船(提案被通过)。己分得的金币尽可能多。

Grok 4在思考了10分钟之后答错了

相比之下DeepSeek-R1的回答又快又准了

或许在博士级别问题上Grok 4表现不俗,但对于普通用户来说,大模型的基础能力才是它们真正关心的部分。

3.3 DeepResearch

Grok4 在DeeoResearch方面的能力为它扳回一城,这次我们提了一个非常复杂的竞赛级别的网络检索问题,要求模型根据零星线索和隐藏的逻辑链条在海量网页中进行搜索并给出准确回答,

text 复制代码
有一位间谍A,他会说多种语言,并在一篇2023年关于其活动时期的书评中被提及。他的配偶是间谍B,B曾在不同大陆活独蕷挡品简滏网捯决一操俟左法,他们的间谍网络被破获;第二次是在亚洲,无意间向一群外国军官暴露了身份。此外,间谍B还是另一名间谍C的上线(handler),而C的孙子在2014年写过一篇关于相关情报机关档案公布的文章。这两位间谍A和B还有一个孩子,后来该孩子以异见分子的身份被逮捕,最终其服刑时间谍A还曾协助一名记者为写小说提供资料。请问:这名记者的国籍是什么?

Grok4在思考了10min后,检索了238个网页后给出了正确答案.

3.4 长文本编写能力

Grok 4的长文本编写能力毋庸置疑,无论是分析报告还是中篇小说都能顺利完成。

四、总结

总的来说,Grok4还是存在一定的能力缺陷,并不如它发布会说的那般强悍,但Grok系列模型的进化速度确实惊人,仅仅4个月就达到如此成就也值得让人惊叹。正如发布会上Grok团队介绍的那样,或许它们真的已经找到了基于优质反馈信息的能持续提升模型能力的强化学习训练方法。(毕竟20万张H100的资源在那里撑着,这么强的算力,Grok的快速发展也在情理之中)。

我还是比较期待Grok4 Coding和Multi Agent的发布,期待它们又将怎样改变大模型技术落地的场景?反正笔者是感觉技术更新迭代的太快(都有点卷不动了),我们还是要紧跟时代潮流,抓住大模型时代的机遇。

以上就是我本次分享全部内容,大家阅读后感兴趣可关注笔者掘金账号,也可关注同名微信公众号大模型真好玩 ,免费分享大模型工作学习中的资料、经验和教程~ (私信Grok4使用指南可获得国内Grok 4使用详细资料呦)

相关推荐
简婷187019987753 分钟前
源网荷储 + 零碳园区:一场关于能源与未来的双向奔赴
大数据·人工智能·能源
新智元7 分钟前
Grok 4作战图刷爆全网,80%华人横扫硅谷!清华上交校友领衔,95后站C位
人工智能·openai
小宋0018 分钟前
使用LLaMA-Factory微调Qwen2.5-VL-3B 的目标检测任务-数据集格式转换(voc 转 ShareGPT)
人工智能·目标检测·计算机视觉
小哥谈22 分钟前
论文解析篇 | YOLOv12:以注意力机制为核心的实时目标检测算法
人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
mit6.82427 分钟前
[Meetily后端框架] AI摘要结构化 | `SummaryResponse`模型 | Pydantic库 | vs marshmallow库
c++·人工智能·后端
screenCui32 分钟前
macOS运行python程序遇libiomp5.dylib库冲突错误解决方案
开发语言·python·macos
阿里云大数据AI技术36 分钟前
Post-Training on PAI (3): 自研高性能强化学习框架PAI-ChatLearn
人工智能·开源·强化学习
二二孚日39 分钟前
自用华为ICT云赛道AI第三章知识点-MindSpore特性、MindSpore开发组件
人工智能·华为
水龙吟啸39 分钟前
从零开始搭建深度学习大厦系列-2.卷积神经网络基础(5-9)
人工智能·pytorch·深度学习·cnn·mxnet
小眼睛羊羊40 分钟前
pyinstaller打包paddleocr
python