【无标题】 - 技术栈

在我们等待了几个月的Grok 3.5后，xAI完全跳过了它，直接跳转到Grok 4。这种跳跃是否有理由基于模型的表现？是的，如果你通过基准来评判。目前，Grok 4在纸面上可能是世界上最好的模型。但是，在应用中，128,000的上下文窗口和在API中256,000的上下文窗口可能会让你在实际生产工作中遇到困难。它不像Gemini 2.5 Pro那样宽容，后者提供了整整一百万个标记。如果你想将Grok 4用于超过简单的短暂对话，你需要一些严谨的上下文工程技能来使其正常工作。在这篇博客中，我将切除常见的炒作，给你一个平衡的概述，解释Grok 4的主要优缺点，以及它在我自己测试中的表现。

🚀ALL IN ONE (AIO) 开放接口(API)平台

Grok 4

Grok 4系列仅包括Grok 4和Grok 4 Heavy，没有可以用于快速推理的迷你版本。

Grok 4是xAI最新的单一代理模型（与使用多个代理的Grok 4 Heavy不同------我们将在下一部分讨论这一点）。根据直播，工程方面没有特别突破性的进展。增益似乎来自一系列较小的调整和计算能力的大幅提升，大约是Grok 3使用计算能力的10倍。

公司声称这是当今最智能的模型，基准测试结果确实朝这个方向发展。最引人注目的结果来自"人类最后的考试"，这是一个包含2,500个手工挑选的博士级问题，涵盖数学、物理、化学、语言学和工程学的基准。Grok 4（带工具）成功解决了大约38.6%的问题。

在应用中，上下文窗口为128,000个标记，在API中为256,000个标记，这为长格式推理提供了一定的空间，但从当前标准来看并不特别慷慨。例如，Gemini 2.5 Pro提供了100万个标记。如果你在使用Grok进行构建，你可能需要花时间仔细构建和修剪你的上下文。

Grok 4 Heavy

Grok 4 Heavy是Grok 4的多代理版本。它不是运行单一模型，而是并行启动多个代理，每个代理独立地处理相同任务。一旦生成输出，它们会比较结果并趋向于得出一个答案。

理论上，这类似于学习小组------代理可以分享见解或者弥补彼此的盲点。在实践中，这种设置有助于处理复杂推理任务，因为单次处理可能无法达到预期效果。

在基准测试中增益是显而易见的。在"人类最后的考试"中，使用工具的Grok 4 Heavy得分为44.4%，明显优于单一代理的Grok 4。这种架构似乎也有助于ARC-AGI，在该基准中，Grok 4是第一个突破10%并达到15.9%的模型------尽管尚不清楚这一结果在多代理设置中具体占了多少。

权衡在于速度和成本。Grok 4 Heavy运行速度更慢（慢得多！），而运营成本也高出十倍------xAI通过每月收费300美元的SuperGrok Heavy级别提供访问。

同样，Grok 4 Heavy并不是适合用于基本查询或快速迭代的工具。如果Grok 4已经较为小众，那么Grok 4 Heavy更是如此。它是为那些多条推理路径可以导致更好结果的问题而构建的------比如科学研究、金融建模或任何涉及长期规划的事情。然而，对于大多数使用场景来说，这都是过剩的选择。

Testing Grok 4

我经常测试新模型，因此我倾向于重复使用几个标准任务以观察它们的比较。我在这里也会这样做，重点关注数学和编码。这并不是对Grok的全面评估，而只是观察其在典型对话设置中的表现。

数学

我想从一个简单的计算开始：9.11 - 9.9。你可能觉得这很傻，但这往往让语言模型感到困惑------例如，Claude Sonnet 4就是错误的。显然，我可以使用计算器，但这里的目标是观察模型如何处理这个问题，以及在需要时它是否能够借助工具或通过思维推理直接解决。

让我们看看Grok 4的答案：

它在第一次尝试时给出了正确的回答。它通过思维推理找到了答案，还使用了代码工具来确认这个答案（这很好！）。

然而，回应耗时31秒，输出对如此简单的提示而言过于冗长。

接下来，我想对Grok 4进行更复杂的数学问题测试，这通常可以推动模型的上下文窗口：

Prompt: Use all digits from 0 to 9 exactly once to make three numbers x, y, z such that x + y = z.

Grok 4智能地处理了这个问题。首先，它意识到可以在几秒钟内使用Python生成所有3,628,800种0-9的排列。然后，它尝试了一种设置，其中两个3位数相加形成一个4位数，并提出了实际返回96个有效解的代码！

复制代码

from itertools import permutations



digits = range(10)



solutions = []



for p in permutations(digits):

    x_digits = p[0:3]

    if x_digits[0] == 0: continue

    y_digits = p[3:6]

    if y_digits[0] == 0: continue

    z_digits = p[6:10]

    if z_digits[0] == 0: continue

    x = int(''.join(map(str, x_digits)))

    y = int(''.join(map(str, y_digits)))

    z = int(''.join(map(str, z_digits)))

    if x + y == z:

        solutions.append((x, y, z))



print(solutions)

接着，它使用相同的方法尝试其他组合（例如四位数加两位数等于四位数）。最后，它在网上搜索以获取更多关于这个数学难题的信息并确认其答案。总共花费了157秒来提供这个答案：

长上下文多模式

最后，我想看看Grok 4如何处理长上下文的多模态任务。我上传了一份包含欧洲委员会生成性人工智能展望报告的PDF（43,087个标记），并要求Grok：

Prompt: Analyze this entire report and identify the three most informative graphs. Summarize each one and let me know which page of the PDF they appear on.

我们先来看答案，然后再进行分析：

我注意到它停止得相当快，仅用了25秒。它推荐了第19、20和44页的图表（错误），并似乎在找到看似令人满意的答案后忽略了剩下的167页文档。思考链感觉不完整，表明其方法相当肤浅：

现在，来看结果：

它的页码全部错误。

它无法清楚地识别图表类型------说一些类似于"这是一条线形图或柱形图"的话。
它的回答偏向于前50页，可能跳过了报告后面的重要部分。
它错误地将Sankey图（图6）分类为"饼图或柱形图"。
它将图6误认为图7，最终分析了图7。

正如Elon Musk在直播中指出的那样，Grok 4的图像理解和生成仍然不够先进。如果你想要稳定和可靠的结果，我认为可以公平地说，目前Grok 4仍然是一个仅处理文本的模型。

Grok 4基准测试

Grok 4的主要声望在于其在广泛基准测试中的表现，从学术考试到商业模拟。根据xAI的说法，该模型相较于以前的版本有了显著改善，这主要归功于训练和推理过程中更多的计算能力，而不一定是由于新的架构突破。

人类最后的考试（HLE）

Grok 4表现的核心模式是扩展。它受益于更多的训练计算资源，更有趣的是，也受益于更多的测试时间计算。简单来说：投入的资源越多，其表现就越好。这一点在其对人类最后的考试（HLE）任务的表现中尤其明显。

在没有工具使用的情况下，Grok 4的准确率约为26.9%。启用工具（例如，代码执行）后，它达到了41.0%。当以其多代理的"Heavy"配置运行时，准确率提升至50.7%------这一重大提升是先前不使用工具的模型最高分的两倍以上。

学术与STEM基准测试

Grok 4在许多更传统的STEM评估中表现也非常出色，这些评估在该领域中通常用于比较高性能的LLM。其亮点包括：

这些都是令人信服的结果。Grok 4在大多数类别中优于Claude Opus、Gemini 2.5 Pro和GPT-4（o3），尽管一些用户指出，这些比较可能涉及对竞争模型基线分数的挑选。

ARC-AGI（高级推理）

其中一个更困难且不透明的基准是ARC-AGI，它测试模型在抽象推理任务中的泛化能力。在ARC-AGI v1上，Grok 4的得分为66.6%，领先于所有已知同类。在ARC-AGI v2中，它得分15.9%，而Claude 4 Opus为8.6%。

这些测试并非完全公开，因此通常的警告适用。但如果这些数字可靠，Grok 4在多步骤、逻辑密集型推理任务中显示出强劲的性能。

自动售货机基准（商业模拟）

xAI还在一个名为Vending-Bench的现实模拟中测试了Grok 4。这个想法是看看一个模型能否在一段时间内管理一家小企业：补充库存、调整价格、与供应商联系等。这是一个相对较新的基准，而且出乎意料地有趣。我们之前通过Claude Sonnet 3.7的案例研究在我们的周刊《中位数》中详细介绍了它的运作方式。

结果（五次运行的平均）：

在收入和规模方面，Grok 4的表现超过了其最近竞争对手的两倍。它在300轮模拟中保持了一致的表现------这是许多模型在面临长期规划时所苦于的。

总而言之：Grok 4在xAI测试的地方表现良好。但如往常一样，你应该超越排行榜来看待问题。这些基准测试是有前景的，但它们并不能讲述整个故事------特别是如果你的使用案例依赖于视觉、代码生成或在复杂环境中的实时交互。

探索智能边界，发现无限可能！（AIOAGI.TECH）