【无标题】

在我们等待了几个月的Grok 3.5后,xAI完全跳过了它,直接跳转到Grok 4。这种跳跃是否有理由基于模型的表现?是的,如果你通过基准来评判。目前,Grok 4在纸面上可能是世界上最好的模型。但是,在应用中,128,000的上下文窗口和在API中256,000的上下文窗口可能会让你在实际生产工作中遇到困难。它不像Gemini 2.5 Pro那样宽容,后者提供了整整一百万个标记。如果你想将Grok 4用于超过简单的短暂对话,你需要一些严谨的上下文工程技能来使其正常工作。在这篇博客中,我将切除常见的炒作,给你一个平衡的概述,解释Grok 4的主要优缺点,以及它在我自己测试中的表现。

🚀ALL IN ONE (AIO) 开放接口(API)平台

Grok 4

Grok 4系列仅包括Grok 4和Grok 4 Heavy,没有可以用于快速推理的迷你版本。

Grok 4是xAI最新的单一代理模型(与使用多个代理的Grok 4 Heavy不同------我们将在下一部分讨论这一点)。根据直播,工程方面没有特别突破性的进展。增益似乎来自一系列较小的调整和计算能力的大幅提升,大约是Grok 3使用计算能力的10倍。

公司声称这是当今最智能的模型,基准测试结果确实朝这个方向发展。最引人注目的结果来自"人类最后的考试",这是一个包含2,500个手工挑选的博士级问题,涵盖数学、物理、化学、语言学和工程学的基准。Grok 4(带工具)成功解决了大约38.6%的问题。

在应用中,上下文窗口为128,000个标记,在API中为256,000个标记,这为长格式推理提供了一定的空间,但从当前标准来看并不特别慷慨。例如,Gemini 2.5 Pro提供了100万个标记。如果你在使用Grok进行构建,你可能需要花时间仔细构建和修剪你的上下文。

Grok 4 Heavy

Grok 4 Heavy是Grok 4的多代理版本。它不是运行单一模型,而是并行启动多个代理,每个代理独立地处理相同任务。一旦生成输出,它们会比较结果并趋向于得出一个答案。

理论上,这类似于学习小组------代理可以分享见解或者弥补彼此的盲点。在实践中,这种设置有助于处理复杂推理任务,因为单次处理可能无法达到预期效果。

在基准测试中增益是显而易见的。在"人类最后的考试"中,使用工具的Grok 4 Heavy得分为44.4%,明显优于单一代理的Grok 4。这种架构似乎也有助于ARC-AGI,在该基准中,Grok 4是第一个突破10%并达到15.9%的模型------尽管尚不清楚这一结果在多代理设置中具体占了多少。

权衡在于速度和成本。Grok 4 Heavy运行速度更慢(慢得多!),而运营成本也高出十倍------xAI通过每月收费300美元的SuperGrok Heavy级别提供访问。

同样,Grok 4 Heavy并不是适合用于基本查询或快速迭代的工具。如果Grok 4已经较为小众,那么Grok 4 Heavy更是如此。它是为那些多条推理路径可以导致更好结果的问题而构建的------比如科学研究、金融建模或任何涉及长期规划的事情。然而,对于大多数使用场景来说,这都是过剩的选择。

Testing Grok 4

我经常测试新模型,因此我倾向于重复使用几个标准任务以观察它们的比较。我在这里也会这样做,重点关注数学和编码。这并不是对Grok的全面评估,而只是观察其在典型对话设置中的表现。

数学

我想从一个简单的计算开始:9.11 - 9.9。你可能觉得这很傻,但这往往让语言模型感到困惑------例如,Claude Sonnet 4就是错误的。显然,我可以使用计算器,但这里的目标是观察模型如何处理这个问题,以及在需要时它是否能够借助工具或通过思维推理直接解决。

让我们看看Grok 4的答案:

它在第一次尝试时给出了正确的回答。它通过思维推理找到了答案,还使用了代码工具来确认这个答案(这很好!)。

然而,回应耗时31秒,输出对如此简单的提示而言过于冗长。

接下来,我想对Grok 4进行更复杂的数学问题测试,这通常可以推动模型的上下文窗口:

Prompt: Use all digits from 0 to 9 exactly once to make three numbers x, y, z such that x + y = z.

Grok 4智能地处理了这个问题。首先,它意识到可以在几秒钟内使用Python生成所有3,628,800种0-9的排列。然后,它尝试了一种设置,其中两个3位数相加形成一个4位数,并提出了实际返回96个有效解的代码!

复制代码
from itertools import permutations



digits = range(10)



solutions = []



for p in permutations(digits):

    x_digits = p[0:3]

    if x_digits[0] == 0: continue

    y_digits = p[3:6]

    if y_digits[0] == 0: continue

    z_digits = p[6:10]

    if z_digits[0] == 0: continue

    x = int(''.join(map(str, x_digits)))

    y = int(''.join(map(str, y_digits)))

    z = int(''.join(map(str, z_digits)))

    if x + y == z:

        solutions.append((x, y, z))



print(solutions)

接着,它使用相同的方法尝试其他组合(例如四位数加两位数等于四位数)。最后,它在网上搜索以获取更多关于这个数学难题的信息并确认其答案。总共花费了157秒来提供这个答案:

长上下文多模式

最后,我想看看Grok 4如何处理长上下文的多模态任务。我上传了一份包含欧洲委员会生成性人工智能展望报告的PDF(43,087个标记),并要求Grok:

Prompt: Analyze this entire report and identify the three most informative graphs. Summarize each one and let me know which page of the PDF they appear on.

我们先来看答案,然后再进行分析:

我注意到它停止得相当快,仅用了25秒。它推荐了第19、20和44页的图表(错误),并似乎在找到看似令人满意的答案后忽略了剩下的167页文档。思考链感觉不完整,表明其方法相当肤浅:

现在,来看结果:

  • 它的页码全部错误。

    它无法清楚地识别图表类型------说一些类似于"这是一条线形图或柱形图"的话。

  • 它的回答偏向于前50页,可能跳过了报告后面的重要部分。

  • 它错误地将Sankey图(图6)分类为"饼图或柱形图"。

  • 它将图6误认为图7,最终分析了图7。

正如Elon Musk在直播中指出的那样,Grok 4的图像理解和生成仍然不够先进。如果你想要稳定和可靠的结果,我认为可以公平地说,目前Grok 4仍然是一个仅处理文本的模型。

Grok 4基准测试

Grok 4的主要声望在于其在广泛基准测试中的表现,从学术考试到商业模拟。根据xAI的说法,该模型相较于以前的版本有了显著改善,这主要归功于训练和推理过程中更多的计算能力,而不一定是由于新的架构突破。

人类最后的考试(HLE)

Grok 4表现的核心模式是扩展。它受益于更多的训练计算资源,更有趣的是,也受益于更多的测试时间计算。简单来说:投入的资源越多,其表现就越好。这一点在其对人类最后的考试(HLE)任务的表现中尤其明显。

在没有工具使用的情况下,Grok 4的准确率约为26.9%。启用工具(例如,代码执行)后,它达到了41.0%。当以其多代理的"Heavy"配置运行时,准确率提升至50.7%------这一重大提升是先前不使用工具的模型最高分的两倍以上。

学术与STEM基准测试

Grok 4在许多更传统的STEM评估中表现也非常出色,这些评估在该领域中通常用于比较高性能的LLM。其亮点包括:

这些都是令人信服的结果。Grok 4在大多数类别中优于Claude Opus、Gemini 2.5 Pro和GPT-4(o3),尽管一些用户指出,这些比较可能涉及对竞争模型基线分数的挑选。

ARC-AGI(高级推理)

其中一个更困难且不透明的基准是ARC-AGI,它测试模型在抽象推理任务中的泛化能力。在ARC-AGI v1上,Grok 4的得分为66.6%,领先于所有已知同类。在ARC-AGI v2中,它得分15.9%,而Claude 4 Opus为8.6%。

这些测试并非完全公开,因此通常的警告适用。但如果这些数字可靠,Grok 4在多步骤、逻辑密集型推理任务中显示出强劲的性能。

自动售货机基准(商业模拟)

xAI还在一个名为Vending-Bench的现实模拟中测试了Grok 4。这个想法是看看一个模型能否在一段时间内管理一家小企业:补充库存、调整价格、与供应商联系等。这是一个相对较新的基准,而且出乎意料地有趣。我们之前通过Claude Sonnet 3.7的案例研究在我们的周刊《中位数》中详细介绍了它的运作方式。

结果(五次运行的平均):

在收入和规模方面,Grok 4的表现超过了其最近竞争对手的两倍。它在300轮模拟中保持了一致的表现------这是许多模型在面临长期规划时所苦于的。

总而言之:Grok 4在xAI测试的地方表现良好。但如往常一样,你应该超越排行榜来看待问题。这些基准测试是有前景的,但它们并不能讲述整个故事------特别是如果你的使用案例依赖于视觉、代码生成或在复杂环境中的实时交互。

探索智能边界,发现无限可能!(AIOAGI.TECH)