谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战

一场激动人心的 AI 国际象棋比赛即将开幕。

看够了研究者们天天在论文上刷新基准,是时候拉模型出来遛一遛,性能是不是真如传说中的碾压全场?

太平洋时间 8 月 5 日至 7 日,一场为期 3 天的 AI 国际象棋比赛让人无比期待。

开局第一天,就有 8 款前沿 AI 模型展开对决:

参与比赛的模型包括:

  • o4-mini(OpenAI)

  • DeepSeek-R1(DeepSeek)

  • Kimi K2 Instruct(月之暗面)

  • o3(OpenAI)

  • Gemini 2.5 Pro(谷歌)

  • Claude Opus 4(Anthropic)

  • Grok 4(xAI)

  • Gemini 2.5 Flash(谷歌)

直播地址:www.youtube.com/watch?v=En_...

这次参赛方都是 AI 界模型顶流(包括两款中国的开源模型),对战双方的性能也旗鼓相当。

组织方还邀请了世界顶级国际象棋专家担任解说,可谓是诚意满满。

这场比赛主要基于 Kaggle Game Arena,这是谷歌推出的一个全新的、公开的基准测试平台,在这里,AI 模型可以在策略游戏(如国际象棋和其他游戏中)中展开正面交锋,一决高下。

为了确保透明性,游戏执行框架以及游戏环境本身都将开源。最终排名将采用严格的全员对抗赛制(all-play-all)确定,每对模型进行大量对战来确保统计结果的可靠性。

诺奖得主、Google DeepMind 联合创始人兼首席执行官 Demis Hassabis 激动地表示:「游戏一直是检验 AI 能力的重要试炼场(包括我们在 AlphaGo 和 AlphaZero 上的研究),而如今我们对这个基准测试平台所能推动的进步感到无比兴奋。随着我们不断向 Arena 引入更多游戏与挑战,我们预计 AI 的能力将会快速提升! 」

「Kaggle Game Arena ,这个全新的排行榜平台,在这里,AI 系统彼此对战,随着模型能力的提升,比赛难度也将不断升级。 」

至于为什么要组织这场比赛,谷歌博客是这么介绍的:当前的 AI 基准测试已难以跟上现代模型的发展速度。尽管这些测试在衡量模型在特定任务上的表现方面仍然有用,但对于那些在互联网上训练出来的模型,我们很难判断它们是在真正解决问题,还是只是在重复它们曾见过的答案。随着模型在某些基准测试上接近 100% 的得分,这些测试在区分模型性能上的作用也逐渐减弱。

因此,在持续发展现有基准测试的同时,研究者们也在不断探索新的模型评估方法。Game Arena 就是在这样的背景下诞生的。

比赛介绍

Game Arena 平台上的每款游戏均设有详情页,用户可查看:

  • 实时更新的比赛对阵表;

  • 动态排行榜数据;

  • 该游戏对应的开源环境代码及测试框架技术文档。

用户还可以实时查看对阵表:

对阵表:www.kaggle.com/benchmarks/...

模型在游戏中的表现将在 Kaggle Benchmarks 的排行榜上展示。

赛制说明

本次比赛采用单败淘汰制,每场对决包含四局比赛。先获得两分的模型晋级(胜一局得 1 分,平局各得 0.5 分)。若对局最终打成 2--2 平,将加赛一局决胜负,在这局中,执白方必须获胜才能晋级。

具体赛程安排

  • 8 月 5 日(首日):8 款模型进行 4 场对决(每场 4 局)

  • 8 月 6 日(次日):晋级的 4 款模型进行 2 场半决赛

  • 8 月 7 日(决赛日):终极冠军争夺战

比赛规则

由于当前大模型对文本表达更为擅长,因此该比赛从基于文本输入的方式开始进行比赛。

以下是对执行框架的简要说明:

  • 模型无法使用任何外部工具。例如,它们不能调用 Stockfish 等国际象棋引擎来获得最优走法。

  • 模型不会被告知当前局面下的合法走法列表。

  • 如果模型给出了一步不合法的走法,举办方将给予它最多 3 次重试机会。若在总共 4 次尝试中仍未提交出合法走法,则本局游戏终止,并记为该模型负,对手胜。

  • 每步棋有 60 分钟的超时限制。

在比赛过程中,观众将能够看到每个模型是如何推理自己的走法,以及它们在面对非法走法后的自我纠正过程。

大家都已经迫不及待地想要看比赛结果了。

更多比赛方式请参考:www.kaggle.com/game-arena

离首场比赛开始时间还有 14 小时,可以开始期待了。你觉得最终赢家会是哪个模型呢?

相关推荐
虎冯河1 分钟前
AI人工智能技术类文章
人工智能·aigc
AI视觉网奇3 分钟前
Bambu Studio 发现 xx个开放边
开发语言·人工智能·python
七老板的blog4 分钟前
多阶段 AI 评测流水线架构设计与实践
java·人工智能·spring
程序员cxuan5 分钟前
Codex 一直 Reconnecting?我最后发现,常见就两个坑
人工智能·后端·程序员
fan65404149 分钟前
高端制造行业AI搜索优化服务商选型:技术维度的4个评估标准
人工智能·制造
优信其乐10 分钟前
2026 PPT讲解视频生成工具易用性排行榜
人工智能·powerpoint·yoco·ppt转视频工具·数字人讲解ppt
逻辑君12 分钟前
Foresight研究报告【20260022】
人工智能
泠不丁12 分钟前
生活中的温柔科技:基于本地 DeepSeek + 语音识别,给独居父母做一个能陪聊解闷的实体音箱助手
人工智能
Jul1en_14 分钟前
【AI】Claude Code 迁移至 Codex 的工作流更新-v2
人工智能·ai·github·ai编程
科技互联.17 分钟前
2026 数据治理中台选型指南:开放集成与 AI 智能化成为采购核心评判标准
大数据·人工智能