马斯克Grok 4.1低调发布!通用能力碾压其他一切模型

几乎毫无预兆,马斯克人工智能公司 xAI 发布了最新模型 Grok 4.1。

就在刚刚,xAI 宣布,Grok 4.1 已经向所有用户开放,可以在 Grok 官网、X 以及 iOS 和 Android 应用中使用。

Grok 4.1将立即在 Auto 模式中推送,并可在模型选择器中手动选择。

此次,Grok 4.1 将在真实世界可用性方面带来显著提升,尤其是在创造力、情感互动和协作交互方面表现出色。Grok 4.1 对细微意图的感知能力更强,与用户对话更加吸引人,整体人格也更连贯,同时完全保留了前代模型强大的智能与可靠性。

马斯克在 x 上宣传一波自家模型。

为实现这些提升,xAI 在支撑 Grok 4 的同一套大规模强化学习基础设施上进一步优化了模型的风格、个性、助人性和对齐性。并且,为了优化这些不可直接验证的奖励信号,xAI 开发了全新的方法,能够利用前沿的智能体式推理模型作为奖励模型,从而可以大规模自主评估并迭代输出结果。

与此前的线上生产模型相比,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。

接下来看 Grok 4.1 的能力特征。

SOTA 通用能力

Grok 4.1 在盲测的人类偏好评估中树立了全新的标杆。

在 LMArena 的 Text Arena 排行榜上,Grok 4.1 的推理模式(代号:quasarflux)以 1483 的 Elo 分数位居总榜首位,领先最高的非 xAI 模型整整 31 分。

Grok 4.1 的非推理模式(代号:tensor)无需使用思维 token 便能即时响应,在排行榜上以 1465 Elo 分数位居第二。即便不启用推理,Grok 4.1 也超越了其他所有模型在启用完整推理配置下的表现。

与 Grok 4 相比,Grok 4.1 的整体表现实现了大幅超越 ,前者此前的总排名仅为第 33 名。

情感智能

为了评估模型在个性与人际互动能力方面的进展,xAI 在 EQ-Bench3 上对 Grok 4.1 进行了测试。

EQ-Bench 是一个由大语言模型评判的测试,用于评估主动情绪智能,包括情绪理解、洞察力、同理心以及人际交往技能。测试集包含 45 个具有挑战性的角色扮演场景,其中大多数由预先编写的三轮对话提示组成。该基准通过多项标准验证模型的回答质量,以评估模型表现。此外,它还通过成对对比的方式,为排行榜中的每个模型计算归一化的 Elo 分数。

xAI 使用官方基准仓库运行测试,并报告评分细则(rubric score)与归一化 Elo 分数。所有分数均在遵循基准要求的条件下计算:使用默认采样参数、指定的评判模型(Claude Sonnet 3.7),并且不添加 system prompt。

结果显示,Grok 4.1 的推理模式和非推理模式位居榜单前两名。

以下示例展示了 Grok 4.1 对情绪类提示的回应方式:

创意写作

xAI 还在 Creative Writing v3 基准测试上评估了 4.1 系列模型的表现。

在该基准中,模型需要针对 32 个不同的写作提示生成回答,并进行 3 轮迭代。与 EQ-Bench 类似,评分同时基于评分细则(rubrics)和模型对战的归一化 Elo 分数进行计算。

结果显示,Grok 4.1 的推理模式和非推理模式位居基准测试第二和第三名,仅次于早期 GPT 5.1。

以下示例展示了 Grok 4.1 在创意写作提示下的回答方式:

减少幻觉

配备搜索工具的 Fast(非推理)模型能够提供即时答案,但由于推理深度受限、工具调用次数有限,它们更容易出现事实性错误。

在 Grok 4.1 的后训练过程中,xAI 着重降低了信息查询类提示的事实幻觉。随后,xAI 在抽样的生产环境信息查询提示中观察到了幻觉率的显著下降。

xAI 使用来自生产流量的真实信息查询请求,按类别分层抽样评估模型幻觉率。同时,也评测了 FActScore ------ 一个包含 500 个关于不同人物的传记类问题的公共基准测试。

更多 Grok 4.1 的技术细节请参阅模型卡:

模型卡地址:data.x.ai/2025-11-17-...

官方博客:x.ai/news/grok-4...

相关推荐
YongGit23 分钟前
OpenClaw 本地 AI 助手完全指南:飞书接入 + 远程部署实战
人工智能
程序员鱼皮2 小时前
斯坦福大学竟然开了个 AI 编程课?!我已经学上了
人工智能·ai编程
星浩AI2 小时前
Skill 的核心要素与渐进式加载架构——如何设计一个生产可用的 Skill?
人工智能·agent
树獭非懒3 小时前
告别繁琐多端开发:DivKit 带你玩转 Server-Driven UI!
android·前端·人工智能
阿尔的代码屋3 小时前
[大模型实战 07] 基于 LlamaIndex ReAct 框架手搓全自动博客监控 Agent
人工智能·python
小小小怪兽3 小时前
🔨聊一聊Skills
人工智能·agent
穿过生命散发芬芳3 小时前
OpenClaw:开启OpenCloudOS 操作系统智能运维初体验
人工智能·aigc
树獭叔叔3 小时前
08-大模型后训练的指令微调SFT:LoRA让大模型微调成本降低99%
后端·aigc·openai
老金带你玩AI3 小时前
Claude Code自动记忆来了!配合老金三层记忆系统全开源!加强Plus!
人工智能
Halo咯咯3 小时前
无限免费 OpenClaw:接入本地模型后,你的 AI Agent 就可以 24 小时自动干活(Mac Mini 可用)
人工智能