刚刚,马斯克 Grok4 干翻谷歌 Gemini!o3 杀入首届大模型对抗赛决战

「【新智元导读】第二轮首届大模型对抗赛结果出炉了!o3 轻而易举击败 o4-mini,拿下 100% 胜率。Grok 4 和 Gemini 2.5 Pro 激烈对决,最终在加赛中 Grok 4 成功晋级。明日,Grok 4 和 o3 将迎来终局之战。」

首届大模型国际象棋对抗赛,第二轮战报出炉了!

Kaggle Game Arena 上,谷歌举办的 AI 国际象棋表演赛中,Grok 4 和 o3 顺利挺进半决赛:

o3 一举击败 o4-mini

Grok 4 在加赛中战胜 Gemini 2.5 Pro,晋级决赛将迎战 o3

十几个小时的激烈对决中,全球八大顶尖模型,如今仅剩下 Grok 4 和 o3 顺利挺进半决赛。

在首轮对战中,DeepSeek R1、Kimi K2 Instruct、Claude Opus 4、Gemini 2.5 Flash 全部溃败。

Kaggle Game Arena 2025 AI 国际象棋表演赛:半决赛对阵图

如今,第二轮的结果,再次筛选出了两位优胜者。

尽管 o3 的胜出早有预料,Grok 与 Gemini 之间的对决却异常激烈,常规赛战成 2 比 2 后,最终通过加赛才分出胜负。

赛事的最后一日将在 8 月 7 日(星期四)举行,开赛时间为美国东部时间下午 1 点(ET)。

届时,国际象棋世界冠军 Magnus Carlsen 与英国三连冠棋手 David Howell 携手解说 Grok 4 对阵 o3 的巅峰对决。

传送门:www.kaggle.com/game-arena

若是 o3 拿下最终冠军,再加上万众瞩目的 GPT-5 登场,OpenAI 明天可谓是双喜临门。

那么,第二轮大模型对战,具体情况如何?

「o3 稳赢 o4-mini,准确率 100%」

根据 OpenAI 的介绍,o4-mini 是 o3 的轻量化、运行更快的版本。

因此,o3 以 4 比 0 横扫对手晋级决赛,也在情理之中。

虽然这场比赛的初衷是研究 AI 的「思考」方式,但第二盘棋却令不少普通棋迷眼前一亮:

o3 在仅用 12 步的快棋中实现了一次类似 Puzzle Rush 的将杀,虽不是真正意义上的密杀(smothered mate),但完成度非常接近。

虽然 AI 在本赛事中的棋艺屡遭诟病,但 o3 在这盘棋中却打出了 100 分的完美准确率:

「o3 vs. o4-mini」「准确率 100 分」

本轮后续的比赛节奏也基本如出一辙:较弱的 AI(此处为 o4-mini)在中盘阶段失去判断力,连续犯下关键失误。

不过值得一提的是第三盘,这可能是目前为止最自然、最接近人类风格的一局。

尤其是 o3 在棋局中完成的两个中间手(intermezzo)------12...Bb4 + 和 19...e3+,堪称本轮亮点。

o3 晋级决赛,将与另一场激战的胜者会师。

「Grok 4 险些折戟,鏖战 Gemini 2.5 Pro」

尽管 Grok 在赛事中的表现一直相当强势,这次却险些折戟。

最终,在加赛「末日战」(Armageddon)中,Grok 4 用黑棋在占优局面下逼和对手,才得以晋级。

比赛伊始,Grok 的表现出人意料地混乱,在短时间内连续失子,被 Gemini 抓住机会赢下首局。

第二盘,双方在第 11 步前一直遵循开局理论。

通常情况下,AI 只要跟随开局理论就表现不错,一旦进入「自由发挥」阶段,就容易出错。

而 Grok 和 Gemini 的开局掌握明显强于其他模型,也让这场对决异常焦灼。

不过,Grok 一旦脱离理论,很快就开始出错------先是丢马,但 Gemini 也随即「走火入魔」,不但送出皇后,最后整盘棋也丢掉,Grok 扳回一局。

接下来两盘棋依然各有胜负,走的都是熟悉剧本:AI 在短暂的「理论时间」后很快开始失误。

Grok 赢下第三局暂时领先,Gemini 在第四局扳平比分。

比赛进入加赛环节,采用「末日战」规则,Grok 执黑,具有和棋即胜优势(虽然此次并无时间限制)。

加赛过程跌宕起伏。

Gemini 曾长时间占优,甚至错过了一步直接将死的机会------与 o3 击败 o4-mini 的那步棋型如出一辙。

国际象棋大师 Peter Heine Nielsen(世界冠军 Magnus Carlsen 的教练)也顺势对 Grok 给出了「指导建议」。

最终,Gemini 在多子残局中送掉皇后,看似已将胜利拱手相让。

但 Grok 没能把握优势,在多一车的局势下未能完成绝杀,因三次重复局面被判和棋,比赛最终以平局告终。

尽管结局略显遗憾,但这局仍被评为「今日最佳对局」。

第二轮比赛战况就这么多,想必所有人都期待明日终局之战------Grok 与 o3 将于明天争夺冠军。

Gemini 2.5 Pro 和 o4-mini 则将进行三四名对决。记得锁定总决赛直播!

参考资料:

x.com/kaggle/stat...

www.youtube.com/watch?v=-m3...

www.chess.com/news/view/k...

相关推荐
weixin_437497774 小时前
读书笔记:Context Engineering 2.0 (上)
人工智能·nlp
喝拿铁写前端4 小时前
前端开发者使用 AI 的能力层级——从表面使用到工程化能力的真正分水岭
前端·人工智能·程序员
goodfat4 小时前
Win11如何关闭自动更新 Win11暂停系统更新的设置方法【教程】
人工智能·禁止windows更新·win11优化工具
北京领雁科技4 小时前
领雁科技反洗钱案例白皮书暨人工智能在反洗钱系统中的深度应用
人工智能·科技·安全
落叶,听雪4 小时前
河南建站系统哪个好
大数据·人工智能·python
清月电子4 小时前
杰理AC109N系列AC1082 AC1074 AC1090 芯片停产替代及资料说明
人工智能·单片机·嵌入式硬件·物联网
Dev7z4 小时前
非线性MPC在自动驾驶路径跟踪与避障控制中的应用及Matlab实现
人工智能·matlab·自动驾驶
七月shi人5 小时前
AI浪潮下,前端路在何方
前端·人工智能·ai编程
橙汁味的风5 小时前
1隐马尔科夫模型HMM与条件随机场CRF
人工智能·深度学习·机器学习
itwangyang5205 小时前
AIDD-人工智能药物设计-AI 制药编码之战:预测癌症反应,选对方法是关键
人工智能