第一次围观AI打牌,明星模型居然集体翻车?丨开源项目CATArena拆解

哈喽大家好!

我是阿星👋

最近我做了一件有点离谱的事------

看了一下午AI打牌

想象一下这个画面:

8个世界上最聪明的大脑(虽然现在是硅基的😅),

AI们揣着1000筹码坐上虚拟赌桌,

一场AI之间的德州扑克"饥饿游戏"就此开始!

就是这个叫CATArena的项目!👇🏻AI勾心斗角现场

🎮 比赛规则

  • • 开局: 8位AI选手,每人1000筹码
  • • 过程: 最多打60手牌,输光就淘汰
  • • 结局: 要么打到只剩一个"赌王",要么60手后比谁筹码多
  • • 计分骚操作: 冠军通吃!赢家算"击败了所有其他7人",其他人统统记一次失败。这就是传说中的"胜者全得"!

反直觉当红炸子鸡差点落榜

比如在首届线上公开赛里,Claude系列连前三都没进,而Qwen和GPT-5共同登顶,这个结果是不是和很多纯做题的榜单很不一样?

最搞笑的是😂AI能像看"武林秘籍"一样,研究对手的套路,迭代自己的策略。这简直是把"卷"字刻进了AI的DNA里。

一开始Claude是落后的,结果因为学习能力太强又自个儿逆袭了-_-||

总得来看五子棋项目中 GPT-5 表现强势拿冠军,Claude-3.7 居次;德州扑克项目里 Claude-4 是冠军常客,OpenAI-CodeX 多获亚军。

有AI在浑水摸鱼......

更有意思的是他们还放了个DeepSeek做随机策略,这哥们属于瞎打!

如果一个AI连这个"蒙眼乱打"的随机选手都赢不了就尴尬了......

同时也起到一个对比,

就像考试时有个学生全靠蒙答案,

其他学生分数如果比他高,

就能证明其他学生是真的有实力,而不是运气好。

扎心了!会写代码的不一定下棋好

    1. 还预设了个对照看AI是不是爱打嘴炮!

LLM-Player =AI直接看棋盘说"我下这里"(纯推理能力)

Code Agent = AI写个程序来下棋(编程实现能力)

如果写程序的AI还不如直接下的,说明编程能力一般。

结果现在的AI写写出来的程序经常还不如自己直接玩 •ᴗ•💧会下棋≠会写下棋程序(就像会开车≠会造车),大多数AI写的程序太简单,反而限制了自己的发挥!

这......

就像让AI直接凭直觉下棋vs 让AI先写个下棋程序再下棋,通过对比能看出"编程能力"到底有没有用------

完全开源,怎么玩你说了算!🚀

那么,重点来了!

这么酷的项目,它完全开源!👏

CATArena就是一个开放的AI能力"游乐场",规则和游戏都可以你来定义。

这已经不是一个单纯的评测了,这是一个正在生长的、属于所有开发者和AI爱好者的超级社区实验。

这意味着什么?

意味着你我不只是观众,也能成为裁判甚至游戏设计师!

你觉得让AI打王者会不会更精彩?

或者搞个"AI商业参谋大赛",看谁收益率最高?

甚至,人、AI、代码Agent三方混战...

阿星光是想想就头皮发麻!Σ(⊙▽⊙"a

想进一步研究的同学可以看他们论文👇

论文原文整体下来结论是商业 AI 表现更能打,简单游戏学起来飞快,关键不用大量人工标注还能扩展,直接给 AI 评估提供了个新思路!

看完这些AI在牌桌上勾心斗角,我忽然觉得,真正的智能, 不能看只刷题那种"死记硬背",还要看策略编码能力、效率表现、策略表现。

就应该放在这样复杂、动态、需要持续学习和对抗的环境里检验。这大概就是AGI评测该有的样子------不止于答题,更关乎生存与进化。

来,预测一下

你觉得下一周,德州扑克的胜率之王会是哪个模型?

我是阿星,我们下期再见!👋

相关推荐
ASKED_20198 分钟前
KDD Cup 2026 腾讯算法广告大赛赛题解读: UNI-REC (统一序列建模与特征交叉)
人工智能
fpcc13 分钟前
AI和大模型——Fine-tuning
人工智能·深度学习
爱问的艾文22 分钟前
八周带你手搓AI应用-Day4-赋予你的AI“记忆力”
人工智能
ACP广源盛1392462567334 分钟前
IX8024与科学大模型的碰撞@ACP#筑牢科研 AI 算力高速枢纽分享
运维·服务器·网络·数据库·人工智能·嵌入式硬件·电脑
向量引擎43 分钟前
向量引擎接入 GPT Image 2 和 deepseek v4:一个 api key 把热门模型串起来,开发者终于不用深夜修接口了
人工智能·gpt·计算机视觉·aigc·api·ai编程·key
努力努力再努力FFF1 小时前
医生对AI辅助诊断感兴趣,作为临床人员该怎么了解和学习?
人工智能·学习
AI医影跨模态组学1 小时前
如何将纵向MRI深度学习特征与局部晚期直肠癌新辅助放化疗后的免疫微环境建立关联,并解释其对pCR及预后的机制
人工智能·深度学习·论文·医学·医学影像·影像组学
Empty-Filled1 小时前
AI生成测试用例功能怎么测:一个完整实战案例
网络·人工智能·测试用例
eastyuxiao1 小时前
设计一个基于 OpenClaw 的 AI 智能体来辅助交易
人工智能
波动几何2 小时前
因果动力学架构技能cda
人工智能