K2 vs qwen3 vs deepseek v3.1 小测试

用TRAE分别测试了下这几个模型的效果,给了一个爬虫和建站的小任务。

prompt

帮我做一个claude code subagents汇总站,希望有真实的数据。你可以爬取各种汇总站,或者github上的一些subagents集合仓库

kimi-k2

  • ✅页面还算美观,比较素
  • ✅搜索、子页面基本也能打开(gif是没走梯子)。
  • ❌并没有执行爬虫,全部mock数据。

执行过程,确实和claude4相似度比较高,蒸馏石锤

qwen3

  • ❌视觉不是很有眼看,差太远了
  • ✅首先做了检索,用的是真实数据。但是也没有系统的爬虫。-

ds v3.1

  • ✅功能基本是ok的
  • ✅有写爬虫程序并执行,其他两个都没做。幻方出品,爬虫能力很在线。。。
  • ❌视觉太素了,有一点点简陋,但比qwen3强点
  • 第一轮还有error,不是很重要的error,先算过。

结论

K2和ds v3.1还是可以接受的。不过我还是用claude4吧(手动狗头)

相关推荐
西西偷西瓜1 小时前
Trae IDE 读取并解析接口文档:trae-swagger-mcp 插件开发分享
前端·ide·自动化·yapi·ai编程
yaocheng的ai分身1 小时前
【转载】大规模的 code review 已经失效。这是我们修复它的方法。
ai编程
yaocheng的ai分身7 小时前
【转载】我们在大型开源项目上对 7 个 AI 代码审查工具进行了基准测试。以下是结果。
ai编程
yaocheng的ai分身7 小时前
【转载】为什么我们选择GPT-5.2作为Augment Code Review的模型
ai编程
realhuizhu10 小时前
拿着顶级服务器跑慢查询,就像开着法拉利送外卖
ai编程·sql优化·后端开发·数据库性能·deepseek
win4r14 小时前
🚀GPT-5.2又赢了?我用一套“开发者视角”的实测流程,真实能力一看便知!
openai·ai编程·vibecoding
Captaincc15 小时前
稀土掘金联合中国信通院邀请您填写2025 AI4SE现状调研问卷
ai编程
算家计算15 小时前
突然发布!GPT-5.2深夜来袭,3个版本碾压人类专家,打工人该怎么选?
算法·openai·ai编程
通义灵码16 小时前
在 IDEA 里用 AI 写完两个 Java 全栈功能,花了 7 分钟
人工智能·ai编程·qoder
coder_pig16 小时前
✨TRAE SOLO + Holopix AI | 复刻 GBA 游戏-"🐛口袋妖怪"
ai编程·trae·vibecoding