K2 vs qwen3 vs deepseek v3.1 小测试

用TRAE分别测试了下这几个模型的效果,给了一个爬虫和建站的小任务。

prompt

帮我做一个claude code subagents汇总站,希望有真实的数据。你可以爬取各种汇总站,或者github上的一些subagents集合仓库

kimi-k2

  • ✅页面还算美观,比较素
  • ✅搜索、子页面基本也能打开(gif是没走梯子)。
  • ❌并没有执行爬虫,全部mock数据。

执行过程,确实和claude4相似度比较高,蒸馏石锤

qwen3

  • ❌视觉不是很有眼看,差太远了
  • ✅首先做了检索,用的是真实数据。但是也没有系统的爬虫。-

ds v3.1

  • ✅功能基本是ok的
  • ✅有写爬虫程序并执行,其他两个都没做。幻方出品,爬虫能力很在线。。。
  • ❌视觉太素了,有一点点简陋,但比qwen3强点
  • 第一轮还有error,不是很重要的error,先算过。

结论

K2和ds v3.1还是可以接受的。不过我还是用claude4吧(手动狗头)

相关推荐
颜进强4 小时前
Claude Code -15 加载机制:从启动到执行的完整拆解
ai编程
程序员mine4 小时前
Agent Skills 完全指南:AI 编程助手的标准化“能力包”
ai编程
条tiao条4 小时前
Codex+ClaudeDesktop+DeepSeekV4——AI编程双核驱动配置指南
ai编程
颜进强4 小时前
Claude Code -13 不只会聊天:Headless 模式 + Agent SDK,让它自己干活
ai编程
颜进强4 小时前
Claude Code -11 编排实战:Workflow 与 Orchestrator Agent 怎么选、怎么写
ai编程
颜进强4 小时前
Claude Code -3.7 Hooks 实战指南:让 AI 编程助手学会"自律"
ai编程
颜进强4 小时前
Claude Code - 9 Rules 实战指南:让 AI 编程助手「长记性」的模块化配置方案
ai编程
颜进强4 小时前
Claude Code -10 自动化编排:Skills 和 Workflows 到底选哪个?
ai编程
xzzd_jokelin5 小时前
AI编程,几个核心工件写成了可直接使用的文件
大数据·人工智能·elasticsearch·ai编程·codex
Leinwin5 小时前
Claude Opus 4.8技术详解:从SWE-Bench到Dynamic Workflows,编程能力全面评测
ai编程