马斯克掀起"帐篷文化",Grok4即将发布,碾压Gemini 2.5 Pro、Claude Opus 4,国内直接使用

最近,xAI公司的办公室照片在网上引起了热议,整个办公室里密密麻麻搭满了各种颜色的帐篷,这些帐篷就直接搭在工位旁边,办公桌和帐篷混在一起,场面相当壮观。

为啥要在办公室搭帐篷?

原来,马斯克上周在推特上透露,他和团队正在"连夜奋战"开发Grok 4。他说虽然"进展不错",但还需要完成"最后一次大型训练",尤其是在编程模型这块。

为了赶进度,从6月底开始,马斯克就带头在办公室里搭帐篷过夜,全天候投入工作。团队成员们也纷纷效仿,把办公室变成了临时宿舍。 这种"帐篷文化"虽然看起来很拼,但也反映出xAI团队对Grok 4项目的重视程度。毕竟在AI竞争如此激烈的今天,时间就是一切。

国内996还是不够卷啊,你看看人家,牛逼!

一、Grok4的重大更新内容

1、发布时间与开发历程

马斯克在2025年6月27日宣布,Grok4将在7月4日美国独立日之后发布。这个决定标志着xAI跳过了原计划的Grok 3.5版本,直接推出了Grok4。马斯克透露,他与xAI团队彻夜工作,取得了良好进展。

2、核心功能升级

Grok4最引人注目的更新包括:

专门的编程模型:Grok4将包含一个需要"再进行一次大规模训练"的专门编程组件,这将大幅提升其代码生成和理解能力。

第一性原理推理:马斯克强调,Grok4将基于第一性原理进行推理,即将物理学方法应用于思维过程。这种方法让AI能够从根本原理出发解决问题,而不仅仅是依赖模式匹配。

知识修正能力:Grok4旨在通过修订人类知识数据来改进AI模型训练,提高推理准确性。马斯克认为,现有的AI模型训练数据中包含太多"垃圾信息",需要进行全面清理和修正。

国内直接使用Grok

可以使用深度搜索(DeepSearch)的满血Grok 3。

使用地址:www.nezhagrok.cn

还包含了ChatGPT4o(支持原生文生图,不降智)、o4-mini(支持Deep Research深入研究)、o4-mini-high、o3、Claude Sonnet 4、Gemini 2.5 Pro、GPT4.5、GPT4.1、671B满血DeepSeek R1、Grok3 thinking等模型。

私信哪吒,备注使用Grok3,即可体验上面所有顶级AI大模型。

二、技术突破与创新

1、推理能力的飞跃

Grok4在推理能力上实现了质的突破。在终极闭卷学术基准测试"人类最后考试"(HLE)中,Grok4默认得分35%,启用推理功能后可达45%。这个成绩意义重大,因为HLE被设计为最难的AI测试,涵盖了人类知识的前沿领域。

相比之下,Gemini 2.5 Pro在HLE上的得分约为21%,这意味着Grok4的表现是其两倍以上。

2、多模态集成能力

Grok4是xAI首个在统一API下集成语言、视觉和编码功能的模型,这种集成不是简单的功能叠加,而是深度融合,让模型能够同时处理和理解多种类型的信息。

3、编程能力的革新

在编程领域,Grok4 Code版本展现出卓越性能,SWE-bench(软件工程基准)得分达到72-75%,能够处理复杂的多文件重构任务,支持实时IDE集成,提升开发效率。

三、基准测试表现详解

1、学术推理测试

GPQA(研究生级别问答):

  • Grok4得分:87-88%
  • Gemini 2.5 Pro得分:84%
  • Claude Opus 4得分:79.6%

AIME 2025(美国数学邀请赛):

  • Grok4得分:95%
  • Gemini 2.5 Pro得分:86.7%
  • Claude Opus 4得分:75.5%

这些数据表明,Grok4在数学和科学推理方面建立了明显优势。

2、编程能力对比

在SWE-bench测试中:

  • Grok4 Code:72-75%
  • Claude Opus 4:72.5%(使用并行计算可达79.4%)
  • Gemini 2.5 Pro:63.8%

虽然Grok4和Claude Opus 4在基础分数上相近,但Grok4的优势在于不需要额外的计算资源就能达到这个水平。

四、与竞争对手的优劣对比

1、上下文窗口大小

这是三个模型差异最大的地方:

  • Grok4:13万token
  • Gemini 2.5 Pro:100万token(200万即将推出)
  • Claude Opus 4:20万token

分析:Gemini 2.5 Pro在处理超长文档和大型代码库方面具有压倒性优势。这对于需要分析整个项目代码或处理长篇文档的场景非常重要。Grok4的13万token虽然不是最大的,但对于大多数日常任务已经足够。

2、多模态能力

  • Gemini 2.5 Pro:原生多模态,视频理解得分84.8%
  • Grok4:支持文本、视觉和代码的统一处理
  • Claude Opus 4:主要专注于文本和代码

分析:Gemini 2.5 Pro在视频理解方面遥遥领先,这使其在需要分析视频内容的应用场景中更有优势。

3、推理深度与准确性

  • Grok4:基于第一性原理的推理,HLE得分45%
  • Gemini 2.5 Pro:思维模型,支持自适应思考预算
  • Claude Opus 4:扩展思维能力,可使用工具辅助推理

分析:Grok4在纯推理任务上表现最佳,特别是在需要深度逻辑分析的场景。Gemini和Claude则通过工具使用和灵活的思考机制来补充推理能力。

4、成本效益

  • Grok4:价格尚未公布
  • Gemini 2.5 Pro:相对经济,提供良好的性价比
  • Claude Opus 4:输入 <math xmlns="http://www.w3.org/1998/Math/MathML"> 15 / 百万 t o k e n ,输出 15/百万token,输出 </math>15/百万token,输出75/百万token

分析:Claude Opus 4的价格明显较高,适合对准确性要求极高的企业级应用。Gemini 2.5 Pro在性价比方面更有优势。

我们让Claude Opus 4根据上面对比内容,画一个柱状图,最后做一个排名,总结一下。三大模型横向对比。

测试一下Grok的联网实时查询能力。

今天北京的天气如何

通过高考语文作文,测试一下Grok的写作能力。

全国一卷作文题目:"民族魂"

材料内容:

  1. "他想要给孩子们唱上一段,可是心里直翻腾,开不了口。" ------老舍《鼓书艺人》
  2. "假如我是一只鸟,我也应该用嘶哑的喉咙歌唱" ------艾青《我爱这土地》
  3. "我要以带血的手和你们一一拥抱,因为一个民族已经起来" ------穆旦《赞美》

写作要求: 以上材料引发了你怎样的联想和思考?请写一篇文章。要求选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

Grok持续思考了4分14秒,搜索了35个来源,保证了参考文献的真实性,写论文必备神器。

测试一下Grok3读取文件的能力。

Grok 3已经如此强大,即将推出的Grok4,值得期待!

相关推荐
新智元6 小时前
毕业 7 年,身价破亿!清北 AI 天团血洗硅谷,奥特曼被逼分天价股份
人工智能·openai
新智元6 小时前
刚刚,苹果大模型团队负责人叛逃 Meta!华人 AI 巨星 + 1,年薪飙至 9 位数
人工智能·openai
掉鱼的猫7 小时前
Java MCP 实战:构建跨进程与远程的工具服务
java·openai·mcp
waynaqua13 小时前
FastAPI开发AI应用一:实现连续多轮对话
python·openai
waynaqua13 小时前
FastAPI开发AI应用二:多厂商模型使用指南
python·openai
得帆云低代码1 天前
什么是AI网关?AI网关如何为企业私有化部署筑防
openai
Georgewu1 天前
【AI大模型入门指南】机器学习入门详解
aigc·openai
俞乾1 天前
Context Engineering(上下文工程)是 AI Agent 成功的关键吗?
openai·ai编程
哪吒编程2 天前
写作、编程最强模型Claude Opus 4,碾压o3、Gemini 2.5 Pro,国内直接使用
openai·claude