K2 vs qwen3 vs deepseek v3.1 小测试

用TRAE分别测试了下这几个模型的效果,给了一个爬虫和建站的小任务。

prompt

帮我做一个claude code subagents汇总站,希望有真实的数据。你可以爬取各种汇总站,或者github上的一些subagents集合仓库

kimi-k2

  • ✅页面还算美观,比较素
  • ✅搜索、子页面基本也能打开(gif是没走梯子)。
  • ❌并没有执行爬虫,全部mock数据。

执行过程,确实和claude4相似度比较高,蒸馏石锤

qwen3

  • ❌视觉不是很有眼看,差太远了
  • ✅首先做了检索,用的是真实数据。但是也没有系统的爬虫。-

ds v3.1

  • ✅功能基本是ok的
  • ✅有写爬虫程序并执行,其他两个都没做。幻方出品,爬虫能力很在线。。。
  • ❌视觉太素了,有一点点简陋,但比qwen3强点
  • 第一轮还有error,不是很重要的error,先算过。

结论

K2和ds v3.1还是可以接受的。不过我还是用claude4吧(手动狗头)

相关推荐
Goboy5 小时前
跳一跳游戏:Trae 轻松实现平台跳跃挑战
ai编程·trae
Goboy5 小时前
飞行棋游戏:Trae 轻松实现骰子与棋盘对战
ai编程·trae
一只爱撸猫的程序猿8 小时前
创建一个关于智能博物馆导览案例
spring boot·aigc·ai编程
CoderJia程序员甲8 小时前
GitHub 热榜项目 - 日榜(2025-08-21)
ai·开源·github·ai编程
量子位8 小时前
DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥
ai编程·deepseek
量子位8 小时前
稚晖君新大招:机器人二次开发0门槛了!
llm·ai编程
章鱼大王9 小时前
让机器“听懂人话”:多轮对话里的意图识别实战
ai编程
几米哥9 小时前
开源AI编程工具Kilo Code的深度分析:与Cline和Roo Code的全面对比
ai编程
10 小时前
继cursor 之后, Gemini cli , Claude code 如何进行选择?
ai编程