开源个狠活,世界杯 AI 模型竞技场!

这是苍何的第 550 篇原创!

大家好,我是苍何。

上一次卡塔尔世界杯,我还在结晶组织,那一年,我还没到 30 岁,我感觉我还有很多的牛逼没吹完。

我会和朋友们一起加班,一起喝酒,一起看球,那个时候我还很能喝,踩着箱子也能有一番天下无敌的猛劲。

梅西捧着大力神杯那刻,我们举杯而庆。冠军只有一个,但是所有人都有为自己的梦想去努力的机会。

贺伟说四年一度的世界杯就像年轮一样一圈又一圈的镌刻着历史的脚步,讲述着巨星们的叱咤风云或黯然神伤,也讲述着我们自己生命的推演。

我们热爱足球这项运动,因为它寄托了我们普通人平凡生活的英雄梦想

于是,我花几天时间,做了个世界杯 AI 模型竞技场网站。

我感觉非常的 Nice,我甚至迫不及待想要分享给你玩玩:

焦点对阵、模型对比,模型积分榜,非常有意思:

让 9 个主流 AI 大模型同台竞技,根据相同的规则和背景进行赛事预测,这 9 个大模型有 Claude Opus 4.8、ChatGPT 5.5、grok-4.2、gemini-3.5、qwen3.7-max、deepseek-v4-pro、

glm-5.1、kimi-k2.7-code、MiniMax-M3。

也是当下的顶级 AI 模型阵容了,根据模型的敏感度来进行预测

其中赛程数据和相关的各个球队的官方排名评分、近期进胜利球等数据也是直接从国际足联 FIFA 官方的 API 数据。

所以这个网站上的关于世界杯的数据是保持和 FIFA 同步最新的,也可以当做是一个了解世界杯赛程最新数据的网站。

而且,我已经把它开源了,你完全可以自定义你的模型 API 和想要竞技的模型,也可以 fork 后在 vercel 上部署,非常方便。

开源 GitHub 我放评论区了,觉得不错,可以点个 star 支持下哈。

说了这么多,你一定很好奇,我是怎么快速开发出来的吧,没错,vibe coding,但这次用的模型是 Kimi 最新最强的模型 kimi-k 2.7-code。

也刚好做了极致的该模型压力测试,该模型的 coding 能力,还蛮不错的。

目前 kimi-k 2.7-code 在 Kimi Code 和 Kimi API 中直接可以使用。

下面我也分享下搭建流程吧,如果对你有帮助的话请毫不留情的点赞👍。

首先,我把 Kimi Code 花了一点时间接入到了我的开源产品 WeSight,现在你只要更新 WeSight 到最新版本,就能在 WeSight 中使用 Kimi Code 了。

当然,你也可以直接在 WeSight 中使用 Claude Code,然后配置 kimi 的 API,模型选择 kimi-k2.7-code。

然后我把我的需求给了 GPT,,我想要让他帮我用 gpt image 2 生成设计稿。

我发现 gpt image 2 生成的设计稿真的是美啊,我想的是让模型读这个生成的设计稿,然后帮我生成代码。

刚好看到官方说 k2.7-code 在视觉推理任务中表现出色。模型能够读取视觉类型的 input,使用工具进行推理,并将结果转化为代码。

我给 kimi 的初始提示词是:

复制代码
●●●帮我开发一个名为「AI World Cup(AI 世界杯擂台)」的网站。项目目标:让多个 AI 大模型预测世界杯比赛结果,并通过自动评分机制评选出预测最准的大模型。核心理念:不是博彩网站,不提供下注建议。这是一个 AI 模型预测竞技场。用户可以查看 GPT、Claude、Gemini、DeepSeek、Grok 等模型对同一场比赛的预测结果,并实时查看模型排行榜。

然后我把 gpt image 2 生成的图片丢给 k2.7-code 去读取:

我发现,读的非常快,页面的元素文字这些也能精准读取出来:

接下来,k2.7-code 就按照这个风格来帮我设计网站了,整个开发过程的速度还是非常快的,可能是我申请了 K2.7Code 高速版高速版的原因,输出速度非常快。

第一个版本长这样:

整体还原度还不错,但是左下角有个报错,我直接页面打开这个报错,然后截图丢给 K2.7Code ,让它自己修。

几乎是几十秒就修复好了这个问题,然后是精细化调整,比如模型调整成最新的顶流模型,它就会去搜索对应的 API 接入方式,然后来进行集成:

感觉 K2.7 Code 就像是个老实巴交的程序员一样,指哪打哪,不会出现乱改其他地方。

在输出的过程中,我发现这个地方有缺少队伍的名字,我同样截图发送需求进行更改:

你别说,这个多模态编程的能力确实强,它仿佛自己长了一双眼睛,非常精准。

我录了个视频,你看下,这个效果。

vibe coding 出 MVP 还是很快的,现阶段模型能力的提升,你几乎都能有一个你想要的 MVP 版本,但难的是后期的不断调整。

特别是数据源,你不给模型指定数据源,有些模型还真会给你一顿瞎搞,给你一堆看似正确的数据。

我发现 K2.7 Code 在这块表现不错,当我需要世界杯赛事数据的时候,它会去国际足联 FIFA 官方 API 查找数据,我都不知道原来是有公开免费数据可以获取的。

我以为还要自己去各种方式爬呢😄

给模型做分析的数据比较重要,我想了下除了历史交锋信息给到参考,还能有哪些呢,于是我把这个问题丢给了 K2.7 Code,他给了不少维度。

模型根据这些不同的维度结合自己的判断力及网上公开资料、训练集,给出自己认为的预测和评分,我觉得这样准确性会相对客观一些。

我发现,相对于 k2.6, K2.7 Code 在 reasoning-token 使用量会更低,感觉它会减少一些没必要思考,专注于任务本身。

在 agent 任务状态这个还是能省下不少 token 的,不过整体 K2.7 Code 价格相较于Claude Opus 4.7:输入成本降低 94%,输出成本降低 95%。

你完全可以用 K2.7 Code 先做一轮初始化任务,然后再交由 GPT 5.5 来进行 CR,会更省钱,效果也很不错。

不过我发现 K2.7 Code 也并非万能的,在长时任务上表现,会有一些达不到我的预期,使用/goal 命令有时候会自己停掉。

现在 AI World Cup Arena 这个项目也依旧还没多完美,比如历史的已经比赛过的数据,还是否需要模型来批量跑一遍数据。

为了搞这个竞技场,我把我中转站的 API 额度都干完了,烧了好几百块,现在也已经是欠费的状态,不知道有没有甲方爸爸看上这个项目的,赞助点 token。

我要穷哭了,搞 AI 的太花钱了,不得不说。

不过,也是真的开心,虽然现在没法再和朋友们一起喝酒吹牛看世界杯了,但我用另一种方式,参与了这届世界杯。

用代码写下预测,用 AI 模型替代酒桌上的争论,用一个人的深夜,换一群人的狂欢。

说实话,做这个项目的那几个通宵,我好像又找回了当年和兄弟们守在电视前等开球的那种兴奋感。技术在变,工具在变,但那份对足球的热爱,对未知结果的期待,从来没变过。

也许这就是技术最浪漫的地方吧,它让我们用自己擅长的方式,去靠近自己热爱的东西。

世界杯还在继续,AI 的竞技场也还在继续,如果你也想玩玩,欢迎来体验,顺便告诉我,你觉得哪个模型预测得最准。

我是苍何,一个热爱足球也热爱代码的普通人,我们下期见。

相关推荐
Dilee1 小时前
Spring AI 1.1.7 接入 MCP:Filesystem Server 最小 Demo
人工智能·后端
程序员小富1 小时前
我开源了一个开发者专属的智能 JSON 工具,得到了媳妇高度认可
前端·vue.js·后端
苍何1 小时前
深度测评 MiniMax M3,能打但不贵
后端
苍何1 小时前
爆款博主,已经没有秘密了。。。
后端
dunky1 小时前
Spring 的三级缓存与循环依赖
后端·spring
子兮曰1 小时前
AI Coding Method Map:一张图看懂 AI 编程的完整链路
前端·人工智能·后端
Chenyiax2 小时前
从 PyTorch Attention 源码理解 KV Cache、缓存命中与 Prefix Cache
后端
IT_陈寒2 小时前
React状态更新总是不及时?你可能漏了这步批处理机制
前端·人工智能·后端