马斯克“鸽”了全世界,Grok4尴尬亮相:知识推理逆天却代码拉胯!

昨日,全球AI圈的目光都聚焦在一个人身上------埃隆·马斯克。

他旗下的xAI公司,原定北京时间中午11点发布Grok 4,结果...你猜怎么着?

他又"鸽"了!足足迟到一个小时,才姗姗来迟。

发布会现场,马斯克甚至显得有些紧张,整个过程被不少网友戏称为"尬聊"。

但别被这"不靠谱"的开场蒙蔽了双眼,因为Grok 4带来的震撼,远超你的想象!

作为一名AI编程博主,我深扒了发布会全程,结合官方资料和各路大神测评,来给大家深度解析一下,这个号称"世界上最智能的AI"------Grok 4,究竟是真香还是智商税?

这次发布,马斯克想证明什么?

📊 数据很惊人,但故事更有趣

马斯克一上台就扔出了一个重磅炸弹:Grok4的训练量是Grok2的100倍

听起来很厉害对吧?

但真正让人眼前一亮的是他们设计的那个"人类最终考试"。

想象一下,2500道覆盖上百个学科的专家级题目,没有任何人类能在所有领域都达到博士后水平。

但Grok4做到了------38.6%的准确率,Heavy版本更是达到了44.4%。

这就像是让一个人同时在物理学、数学、生物学、哲学等领域都拿到博士学位。听起来确实很恐怖。

🎯 五个维度的全面碾压

在传统的AI测评中,Grok4 Heavy确实表现抢眼:

学术竞赛方面

  • AIME25:100%满分

  • HMMT25:96.7%近满分

  • GPQA、USAMO25等多项夺冠

商业模拟能力: 他们设计了一个"自动售货机基准测试",让AI像真人一样经营生意。

结果?

Grok4平均净资产4684.15美元,是第二名Claude4的两倍。

这就像是让AI去开个小卖部,不仅要会进货、定价,还要懂得市场策略。

但是,程序员们不买账

💻 代码能力成了最大槽点

作为一个长期关注AI编程的博主,我第一时间测试了Grok4的代码能力。

结果让人有些失望。

虽然Grok4在知识推理上表现出色,但一到实际编程场景,立刻现出了原形。

简单的算法题还能应付,但涉及到复杂的系统设计、代码优化,就明显力不从心了。

这就好比一个满腹经纶的博士生,让他背书、答题样样精通,但一到实际动手操作,就变得手忙脚乱。

🔍 技术细节的真相

马斯克强调Grok4在训练阶段就深度整合了工具使用能力,包括代码解释器、搜索引擎等。

听起来很先进,但实际效果呢?

我用同样的编程任务测试了GPT-4、Claude4和Grok4:

任务:写一个简单的React组件,实现数据可视化。

结果

  • GPT-4:代码结构清晰,逻辑完整。

  • Claude4:不仅代码质量高,还有详细的注释。

  • Grok4:基础功能能实现,但代码冗余,优化空间很大。

定价策略:是自信还是割韭菜?

💰 三档定价的商业逻辑

马斯克这次的定价策略很有意思:

Free版:只能用Grok3,连Grok4的边都摸不到。

SuperGrok(30美元/月):Grok4 + 128k Token + 更多接口。

SuperGrok Heavy(300美元/月):独享Heavy版本 + 提前试用新功能。

300美元一个月,这个价格确实让人咂舌。

🤔 这个定价合理吗?

从商业角度看,马斯克这是在打"差异化牌"。

Heavy版本采用多智能体协同工作,就像一个学习小组,多个AI同时思考同一个问题,然后选出最佳答案。

这种方式确实能提高准确率,但成本也会相应提高。

但问题是,300美元的价格是否能带来300美元的价值?

至少在编程领域,我个人觉得还没有达到这个水平。

马斯克的AI野心:从路线图看未来

🗓️ 未来三个月的计划

  • 8月:专用编码模型发布

  • 9月:多模态智能体上线

  • 10月:视频生成模型推出

这个路线图很有意思。

马斯克显然意识到了Grok4在编程方面的短板,所以8月就要推出专门的编码模型。

🚀 更大的野心

发布会最后,马斯克说了一句很有意思的话:"AI可能在今年晚些时候或明年发现真正有用的新技术,甚至在1-2年内发现新的物理学原理。"

这话听起来很科幻,但考虑到这是马斯克,我们也不能完全当玩笑话。

理性看待AI军备竞赛

🎭 表演还是实力?

马斯克的发布会总是充满戏剧性,但我们需要透过表面看本质。

Grok4在知识推理方面确实表现出色,这是毋庸置疑的。

但在实际应用中,特别是编程领域,还有很大的提升空间。

💡 对开发者的建议

如果你是开发者,我的建议是:

  1. 不要盲目追新:Grok4虽然有亮点,但GPT-4和Claude4在编程方面仍然更实用。

  2. 理性看待定价:300美元的Heavy版本更适合有特殊需求的企业用户。

  3. 关注8月的编码模型:这可能是Grok真正在编程领域发力的机会。

🔮 AI发展的思考

每一次AI模型的发布,都会引发新一轮的讨论和期待。

但真正的技术进步不是靠营销包装出来的,而是要在实际应用中接受检验。

马斯克的Grok4确实在某些方面表现出色,但它是否真的是"世界最强AI",还需要时间来证明。

相关推荐
哪吒编程18 小时前
突发!马斯克Grok4发布,全部刷新SOTA,硬刚Gemini 2.5 Pro、Claude Opus 4,国内直接使用
openai·grok
量子位2 天前
马斯克 Grok-4 碾压所有大模型!“比所有领域博士都聪明”,AIME25 拿满分
ai编程·grok
机器之心2 天前
刚刚,马斯克发布Grok 4!全榜第一,年费飚到2万+
人工智能·grok
摆烂工程师2 天前
教你在国内如何使用支付宝升级SuperGrok和Grok4的保姆绑卡教程
人工智能·支付宝·grok
哪吒编程4 天前
马斯克掀起"帐篷文化",Grok4即将发布,碾压Gemini 2.5 Pro、Claude Opus 4,国内直接使用
openai·grok
福宝plus3 个月前
如何白嫖Grok3 API?Grok3 API价格? 如何使用Grok3 API调用实例?怎么使用Grok3模型?
chatgpt·claude·grok
优弧3 个月前
xAI 发布 Grok 3 API 提供多个版本的 Grok 模型,适配不同应用场景
人工智能·grok
福宝plus4 个月前
Grok 上线角色扮演功能,教你课后作业手到擒来,Grok3使用次数限制?如何使用Grok3? Grok3国内支付手段如何订阅升级Premium
chatgpt·claude·grok
YiYueHuan4 个月前
添加 ChatGPT/Grok/Gemini 到浏览器搜索引擎
搜索引擎·chatgpt·grok