马斯克Grok 4.1低调发布！通用能力碾压其他一切模型

几乎毫无预兆，马斯克人工智能公司 xAI 发布了最新模型 Grok 4.1。

就在刚刚，xAI 宣布，Grok 4.1 已经向所有用户开放，可以在 Grok 官网、X 以及 iOS 和 Android 应用中使用。

Grok 4.1将立即在 Auto 模式中推送，并可在模型选择器中手动选择。

此次，Grok 4.1 将在真实世界可用性方面带来显著提升，尤其是在创造力、情感互动和协作交互方面表现出色。Grok 4.1 对细微意图的感知能力更强，与用户对话更加吸引人，整体人格也更连贯，同时完全保留了前代模型强大的智能与可靠性。

马斯克在 x 上宣传一波自家模型。

为实现这些提升，xAI 在支撑 Grok 4 的同一套大规模强化学习基础设施上进一步优化了模型的风格、个性、助人性和对齐性。并且，为了优化这些不可直接验证的奖励信号，xAI 开发了全新的方法，能够利用前沿的智能体式推理模型作为奖励模型，从而可以大规模自主评估并迭代输出结果。

与此前的线上生产模型相比，Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。

接下来看 Grok 4.1 的能力特征。

SOTA 通用能力

Grok 4.1 在盲测的人类偏好评估中树立了全新的标杆。

在 LMArena 的 Text Arena 排行榜上，Grok 4.1 的推理模式（代号：quasarflux）以 1483 的 Elo 分数位居总榜首位，领先最高的非 xAI 模型整整 31 分。

Grok 4.1 的非推理模式（代号：tensor）无需使用思维 token 便能即时响应，在排行榜上以 1465 Elo 分数位居第二。即便不启用推理，Grok 4.1 也超越了其他所有模型在启用完整推理配置下的表现。

与 Grok 4 相比，Grok 4.1 的整体表现实现了大幅超越，前者此前的总排名仅为第 33 名。

情感智能

为了评估模型在个性与人际互动能力方面的进展，xAI 在 EQ-Bench3 上对 Grok 4.1 进行了测试。

EQ-Bench 是一个由大语言模型评判的测试，用于评估主动情绪智能，包括情绪理解、洞察力、同理心以及人际交往技能。测试集包含 45 个具有挑战性的角色扮演场景，其中大多数由预先编写的三轮对话提示组成。该基准通过多项标准验证模型的回答质量，以评估模型表现。此外，它还通过成对对比的方式，为排行榜中的每个模型计算归一化的 Elo 分数。

xAI 使用官方基准仓库运行测试，并报告评分细则（rubric score）与归一化 Elo 分数。所有分数均在遵循基准要求的条件下计算：使用默认采样参数、指定的评判模型（Claude Sonnet 3.7），并且不添加 system prompt。

结果显示，Grok 4.1 的推理模式和非推理模式位居榜单前两名。