马斯克掀起"帐篷文化"，Grok4即将发布，碾压Gemini 2.5 Pro、Claude Opus 4，国内直接使用

最近，xAI公司的办公室照片在网上引起了热议，整个办公室里密密麻麻搭满了各种颜色的帐篷，这些帐篷就直接搭在工位旁边，办公桌和帐篷混在一起，场面相当壮观。

为啥要在办公室搭帐篷？

原来，马斯克上周在推特上透露，他和团队正在"连夜奋战"开发Grok 4。他说虽然"进展不错"，但还需要完成"最后一次大型训练"，尤其是在编程模型这块。

为了赶进度，从6月底开始，马斯克就带头在办公室里搭帐篷过夜，全天候投入工作。团队成员们也纷纷效仿，把办公室变成了临时宿舍。这种"帐篷文化"虽然看起来很拼，但也反映出xAI团队对Grok 4项目的重视程度。毕竟在AI竞争如此激烈的今天，时间就是一切。

国内996还是不够卷啊，你看看人家，牛逼！

一、Grok4的重大更新内容

1、发布时间与开发历程

马斯克在2025年6月27日宣布，Grok4将在7月4日美国独立日之后发布。这个决定标志着xAI跳过了原计划的Grok 3.5版本，直接推出了Grok4。马斯克透露，他与xAI团队彻夜工作，取得了良好进展。

2、核心功能升级

Grok4最引人注目的更新包括：

专门的编程模型：Grok4将包含一个需要"再进行一次大规模训练"的专门编程组件，这将大幅提升其代码生成和理解能力。

第一性原理推理：马斯克强调，Grok4将基于第一性原理进行推理，即将物理学方法应用于思维过程。这种方法让AI能够从根本原理出发解决问题，而不仅仅是依赖模式匹配。

知识修正能力：Grok4旨在通过修订人类知识数据来改进AI模型训练，提高推理准确性。马斯克认为，现有的AI模型训练数据中包含太多"垃圾信息"，需要进行全面清理和修正。

国内直接使用Grok

可以使用深度搜索（DeepSearch）的满血Grok 3。

使用地址：www.nezhagrok.cn

还包含了ChatGPT4o（支持原生文生图，不降智）、o4-mini（支持Deep Research深入研究）、o4-mini-high、o3、Claude Sonnet 4、Gemini 2.5 Pro、GPT4.5、GPT4.1、671B满血DeepSeek R1、Grok3 thinking等模型。

私信哪吒，备注使用Grok3，即可体验上面所有顶级AI大模型。

二、技术突破与创新

1、推理能力的飞跃

Grok4在推理能力上实现了质的突破。在终极闭卷学术基准测试"人类最后考试"（HLE）中，Grok4默认得分35%，启用推理功能后可达45%。这个成绩意义重大，因为HLE被设计为最难的AI测试，涵盖了人类知识的前沿领域。

相比之下，Gemini 2.5 Pro在HLE上的得分约为21%，这意味着Grok4的表现是其两倍以上。

2、多模态集成能力

Grok4是xAI首个在统一API下集成语言、视觉和编码功能的模型，这种集成不是简单的功能叠加，而是深度融合，让模型能够同时处理和理解多种类型的信息。

3、编程能力的革新

在编程领域，Grok4 Code版本展现出卓越性能，SWE-bench（软件工程基准）得分达到72-75%，能够处理复杂的多文件重构任务，支持实时IDE集成，提升开发效率。

三、基准测试表现详解

1、学术推理测试

GPQA（研究生级别问答）：

Grok4得分：87-88%
Gemini 2.5 Pro得分：84%
Claude Opus 4得分：79.6%

AIME 2025（美国数学邀请赛）：

Grok4得分：95%
Gemini 2.5 Pro得分：86.7%
Claude Opus 4得分：75.5%

这些数据表明，Grok4在数学和科学推理方面建立了明显优势。

2、编程能力对比

在SWE-bench测试中：

Grok4 Code：72-75%
Claude Opus 4：72.5%（使用并行计算可达79.4%）
Gemini 2.5 Pro：63.8%

虽然Grok4和Claude Opus 4在基础分数上相近，但Grok4的优势在于不需要额外的计算资源就能达到这个水平。

四、与竞争对手的优劣对比

1、上下文窗口大小

这是三个模型差异最大的地方：

Grok4：13万token
Gemini 2.5 Pro：100万token（200万即将推出）
Claude Opus 4：20万token

分析：Gemini 2.5 Pro在处理超长文档和大型代码库方面具有压倒性优势。这对于需要分析整个项目代码或处理长篇文档的场景非常重要。Grok4的13万token虽然不是最大的，但对于大多数日常任务已经足够。

2、多模态能力

Gemini 2.5 Pro：原生多模态，视频理解得分84.8%
Grok4：支持文本、视觉和代码的统一处理
Claude Opus 4：主要专注于文本和代码

分析：Gemini 2.5 Pro在视频理解方面遥遥领先，这使其在需要分析视频内容的应用场景中更有优势。

3、推理深度与准确性

Grok4：基于第一性原理的推理，HLE得分45%
Gemini 2.5 Pro：思维模型，支持自适应思考预算
Claude Opus 4：扩展思维能力，可使用工具辅助推理

分析：Grok4在纯推理任务上表现最佳，特别是在需要深度逻辑分析的场景。Gemini和Claude则通过工具使用和灵活的思考机制来补充推理能力。

4、成本效益

Grok4：价格尚未公布
Gemini 2.5 Pro：相对经济，提供良好的性价比
Claude Opus 4：输入 $15 / 百万 t o k e n ，输出 15/百万token，输出$ 15/百万token，输出75/百万token

分析：Claude Opus 4的价格明显较高，适合对准确性要求极高的企业级应用。Gemini 2.5 Pro在性价比方面更有优势。

我们让Claude Opus 4根据上面对比内容，画一个柱状图，最后做一个排名，总结一下。三大模型横向对比。

测试一下Grok的联网实时查询能力。

今天北京的天气如何

通过高考语文作文，测试一下Grok的写作能力。

全国一卷作文题目："民族魂"

材料内容：

"他想要给孩子们唱上一段，可是心里直翻腾，开不了口。" ------老舍《鼓书艺人》
"假如我是一只鸟，我也应该用嘶哑的喉咙歌唱" ------艾青《我爱这土地》
"我要以带血的手和你们一一拥抱，因为一个民族已经起来" ------穆旦《赞美》

写作要求：以上材料引发了你怎样的联想和思考？请写一篇文章。要求选准角度，确定立意，明确文体，自拟标题；不要套作，不得抄袭；不得泄露个人信息；不少于800字。

Grok持续思考了4分14秒，搜索了35个来源，保证了参考文献的真实性，写论文必备神器。

测试一下Grok3读取文件的能力。

Grok 3已经如此强大，即将推出的Grok4，值得期待！