
大家好,这里是K姐。
一个帮你追踪最新AI应用的女子!
大模型时代,代码确实越来越廉价了。大数据每天都会推一堆 AI 生成的网页,看多了真的有点审美疲劳。
这些网页总有一股浓浓的 AI 味,千篇一律的圆角卡片、卡片阴影、Tailwind 紫、 emoji 表情包...
刚好昨天被 Kimi 发布的 K2.5 模型刷屏了,这次他们主打的就是视觉编程,一张截图、一段视频,就能复刻出几乎一模一样的网页。
今天,我们一起实测看看 Kimi K2.5 的"视力"和"品味"到底行不行?

视觉编程测评
首先,我们直接把好看的模板截图发给 Kimi。
提示词很简单:复刻这个网站。

确实很惊艳,看得出来,K2.5 会识别和提取画面中的视觉素材,把图片转换成可交互的网页代码。

而且还自动做了响应式布局,可以直接切换手机/电脑网页端预览。

而且他们的 Agent 生成的网页还有一个很人性化的设计,只要点击右上角的编辑按钮,就可以直接在预览界面点选需要修改的地方,用大白话告诉 Kimi 改哪里,就能精准调整。
K姐研究社
生成的网页,K2.5 会顺手帮我们部署上线。点击页面右上角的分享,就能直接复制访问链接。
复刻地址:https://rqgcia4tyj2lk.beta-ok.kimi.link
让我们再来考察一下视频复刻的能力。
提示词继续延伸简单的风格:帮我复刻一个一模一样的网页。
三星堆博物馆
Kimi K2.5 把视频中的画面特征抓的挺准,布局、色彩搭配、信息层级都还原的很到位,看上去就像照着做出来的一样,AI 味确实淡很多。


视觉理解测评
Kimi K2.5 最关键的底层变化,就是原生的视觉能力,可以直接看懂图片和视频里的界面结构和细节。
所以接下来,我们来考察一下非编程领域的视觉能力。
这是一张北京鹞儿胡同的照片,图里除了胡同这个元素,没有任何醒目的地标或者文字提示,看看 Kimi 能看出什么。
提示词:判断一下这是在哪里。


Kimi 识别出了这是北京二环的老胡同,锁定了几个大致位置,不过让它直接说出鹞儿胡同看来还有点难。
再试试让 Kimi 判断一下画面中靠近车门的男生的身高。


Kimi 几乎是秒答,给我的回答是这位男生的身高大约在 183-188 厘米之间,最可能在 185 厘米左右。
龚俊的官方身高是 186 厘米,非常贴近!(我承认,这道题我多少是有点私心的)
我们继续上强度,我找了一道25年的行测真题发给 Kimi。
提示词:回答这道行测题。

在短暂的推理后,Kimi 很快抓住了这道题的关键点在于相同图案的相对位置,从而选出了正确答案 D。

到这里,K2.5 视觉能力已经很直观了,虽然猜地点可能没办法精准定位,但视觉推理是长板,能从画面中抽取有效信息,支撑推理。

视觉 Agent 测评
这次除了模型本身,我发现 Kimi 还悄悄上新了一套办公助手的 Agent,主打处理日常工作中的 PPT、Word、Excel 等各类文件需求。
我们来看看能否终结 Office手搓时代?
- 文档 Agent
提示词:结合"双碳"目标背景,论述绿色低碳发展对中国经济高质量发展的现实意义。输出为 1500 字的 pdf 文件,杂志内页风格,双栏排版。

好像已经不用过多描述了,文风契合杂志的要求,杂志内页排版也好看,目前市面上这个文档助手好像没有竞争者。

Agent 集群
从官方介绍来看,Agent 集群是 K2.5 的全新探索------从单一 Agent 进化成 Agent 团队。面对复杂任务,K2.5 能够自主创建自己的「分身」,按需组成不同角色的团队,并行工作。
于是我测试了这个提示词:
请五个风格截然不同的中国知名艺术家或IP设计师,为我设计5个系列、每个系列10张的马年主题微信红包封面图片,我希望风格各异。

Kimi K2.5 创建了 5 位不同风格的设计师,并给他们分派图片生成任务。

我们一起看看生成的结果:

5 种风格里新水墨风和水墨风风格有点接近,整体质量都挺不错的,画面清晰,图案也好看,可以直接作为封面图用了。
平时自己找真题资料,很难一次性找全,好不容易有比较全面的合集,下载都需要付费。
Agent 集群也能帮我把10年真题和解析打包整理好,直接一键下载,这个属实厉害。
提示词:批量下载近10年国考行测真题与答案解析。

除此以外,还可以把收集数据和可视化的工作一起跑。
提示词:详细调研近10年我国各省份的GDP及涨跌变化,并以中国地图热力图的形式可视化展示。默认展示2025年GDP,并支持切换年份。
比如,梁顾问负责收集数据,笛卡尔负责开发一个可交互的热力图网页,静秋负责将梁顾问收集的数据集成到网页中。
我们就得到了一份真实可用的热力图网页。


一些分享
Kimi K2.5 主打全能 Agent 模型,拥有了视觉能力,更新了更强的 Office、Coding 能力和无限分身的 Agent 集群。
这或许意味着,大模型正在从"搜索引擎、问答助手",走向"私人 AI 助手"甚至是"商用数字员工"。未来的竞争点不只是参数和榜单,而是谁能在现实工作里替你完成更多环节。
很多重复性的脑力工作会被重新定价。内容生产、基础开发、设计初稿、资料整理,这些过去靠经验堆出来的时间成本,会被模型直接压平。
最后拼的是审美是否过关,策略是否有效。
在你的监督下,把事情做成,才是新的分水岭。