用TRAE分别测试了下这几个模型的效果,给了一个爬虫和建站的小任务。
prompt
帮我做一个claude code subagents汇总站,希望有真实的数据。你可以爬取各种汇总站,或者github上的一些subagents集合仓库
kimi-k2
- ✅页面还算美观,比较素
- ✅搜索、子页面基本也能打开(gif是没走梯子)。
- ❌并没有执行爬虫,全部mock数据。
执行过程,确实和claude4相似度比较高,蒸馏石锤

qwen3
- ❌视觉不是很有眼看,差太远了
- ✅首先做了检索,用的是真实数据。但是也没有系统的爬虫。-
ds v3.1
- ✅功能基本是ok的
- ✅有写爬虫程序并执行,其他两个都没做。幻方出品,爬虫能力很在线。。。
- ❌视觉太素了,有一点点简陋,但比qwen3强点
- 第一轮还有error,不是很重要的error,先算过。

结论
K2和ds v3.1还是可以接受的。不过我还是用claude4吧(手动狗头)