K2 vs qwen3 vs deepseek v3.1 小测试

用TRAE分别测试了下这几个模型的效果,给了一个爬虫和建站的小任务。

prompt

帮我做一个claude code subagents汇总站,希望有真实的数据。你可以爬取各种汇总站,或者github上的一些subagents集合仓库

kimi-k2

  • ✅页面还算美观,比较素
  • ✅搜索、子页面基本也能打开(gif是没走梯子)。
  • ❌并没有执行爬虫,全部mock数据。

执行过程,确实和claude4相似度比较高,蒸馏石锤

qwen3

  • ❌视觉不是很有眼看,差太远了
  • ✅首先做了检索,用的是真实数据。但是也没有系统的爬虫。-

ds v3.1

  • ✅功能基本是ok的
  • ✅有写爬虫程序并执行,其他两个都没做。幻方出品,爬虫能力很在线。。。
  • ❌视觉太素了,有一点点简陋,但比qwen3强点
  • 第一轮还有error,不是很重要的error,先算过。

结论

K2和ds v3.1还是可以接受的。不过我还是用claude4吧(手动狗头)

相关推荐
小虎AI生活13 分钟前
Agent 工具那么多,为什么我押注 WorkBuddy 加 ima
ai编程
leeyi4 小时前
Prompt 模板:用变量组装发给 AI 的消息
aigc·agent·ai编程
kyriewen5 小时前
同事每天催我 Code Review,我写了个脚本让 AI 替我 review PR——现在他反过来催 AI 了
前端·javascript·ai编程
沉默王二5 小时前
Qoder 越来越猛了,Browser Use 让 Agent 的联网能力拉满。
agent·ai编程
aqi007 小时前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG
人工智能·python·大模型·ai编程·ai应用
我不是外星人20 小时前
有了 Harness Engineering ,真的还需要研发工程师吗?
前端·后端·ai编程
穿过生命散发芬芳1 天前
现在CC Switch一开,Claude Code随便玩
ai编程
yuanyxh1 天前
macOS 应用 - 纯对话生成
前端·macos·ai编程
葫芦和十三1 天前
多模态融合|是数据形态工程,不是 Prompt 工程
openai·agent·ai编程