K2 vs qwen3 vs deepseek v3.1 小测试

用TRAE分别测试了下这几个模型的效果,给了一个爬虫和建站的小任务。

prompt

帮我做一个claude code subagents汇总站,希望有真实的数据。你可以爬取各种汇总站,或者github上的一些subagents集合仓库

kimi-k2

  • ✅页面还算美观,比较素
  • ✅搜索、子页面基本也能打开(gif是没走梯子)。
  • ❌并没有执行爬虫,全部mock数据。

执行过程,确实和claude4相似度比较高,蒸馏石锤

qwen3

  • ❌视觉不是很有眼看,差太远了
  • ✅首先做了检索,用的是真实数据。但是也没有系统的爬虫。-

ds v3.1

  • ✅功能基本是ok的
  • ✅有写爬虫程序并执行,其他两个都没做。幻方出品,爬虫能力很在线。。。
  • ❌视觉太素了,有一点点简陋,但比qwen3强点
  • 第一轮还有error,不是很重要的error,先算过。

结论

K2和ds v3.1还是可以接受的。不过我还是用claude4吧(手动狗头)

相关推荐
OopsOutOfMemory14 小时前
LangChain源码分析(十三)- 运行时与监控
ai·langchain·aigc·ai编程·ai应用
用户40993225021214 小时前
转账不翻车、并发不干扰,PostgreSQL的ACID特性到底有啥魔法?
后端·ai编程·trae
十步杀一人_千里不留行17 小时前
和 AI 一起修 Bug 心得体会
人工智能·bug·ai编程
yaocheng的ai分身17 小时前
Token-efficient tool use
ai编程·claude
后端研发Marion19 小时前
AI编程CLI编辑器技术对比分析:心流CLI vs OpenAI Codex vs Claude Code
编辑器·ai编程·codex·心流cli·cluade code
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2025-09-26)
ai·开源·github·ai编程·github热榜
哪吒编程1 天前
重磅更新!Claude Sonnet 4.5发布,编程最强模型
ai编程·claude
飞哥数智坊1 天前
Claude 4.5 升级解析:很强,但请别跳过“Imagine”
人工智能·ai编程·claude
用户4099322502122 天前
银行转账不白扣钱、电商下单不超卖,PostgreSQL事务的诀窍是啥?
后端·ai编程·trae
码农飞哥2 天前
AI编程开发系统001-基于SpringBoot+Vue的旅游民宿租赁系统
vue.js·spring boot·毕业设计·ai编程·计算机源码