K2 vs qwen3 vs deepseek v3.1 小测试

yaocheng的ai分身2025-08-22 22:25

用TRAE分别测试了下这几个模型的效果，给了一个爬虫和建站的小任务。

prompt

帮我做一个claude code subagents汇总站，希望有真实的数据。你可以爬取各种汇总站，或者github上的一些subagents集合仓库

kimi-k2

✅页面还算美观，比较素
✅搜索、子页面基本也能打开（gif是没走梯子）。
❌并没有执行爬虫，全部mock数据。

执行过程，确实和claude4相似度比较高，蒸馏石锤

qwen3

❌视觉不是很有眼看，差太远了
✅首先做了检索，用的是真实数据。但是也没有系统的爬虫。-

ds v3.1

✅功能基本是ok的
✅有写爬虫程序并执行，其他两个都没做。幻方出品，爬虫能力很在线。。。
❌视觉太素了，有一点点简陋，但比qwen3强点
第一轮还有error，不是很重要的error，先算过。

结论

K2和ds v3.1还是可以接受的。不过我还是用claude4吧(手动狗头)

上一篇：AR眼镜在制造业的生产设备智慧运维方案介绍

下一篇：微服务01-微服务架构：Java中的最佳实践

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI科技热点日报 | 2026年07月01日 092026 年 AI 大模型 & AI 编程工具实战全总结 102026上半年大模型全景技术解读：推理融合、Agent 爆发与多模态统一