K2 vs qwen3 vs deepseek v3.1 小测试

用TRAE分别测试了下这几个模型的效果,给了一个爬虫和建站的小任务。

prompt

帮我做一个claude code subagents汇总站,希望有真实的数据。你可以爬取各种汇总站,或者github上的一些subagents集合仓库

kimi-k2

  • ✅页面还算美观,比较素
  • ✅搜索、子页面基本也能打开(gif是没走梯子)。
  • ❌并没有执行爬虫,全部mock数据。

执行过程,确实和claude4相似度比较高,蒸馏石锤

qwen3

  • ❌视觉不是很有眼看,差太远了
  • ✅首先做了检索,用的是真实数据。但是也没有系统的爬虫。-

ds v3.1

  • ✅功能基本是ok的
  • ✅有写爬虫程序并执行,其他两个都没做。幻方出品,爬虫能力很在线。。。
  • ❌视觉太素了,有一点点简陋,但比qwen3强点
  • 第一轮还有error,不是很重要的error,先算过。

结论

K2和ds v3.1还是可以接受的。不过我还是用claude4吧(手动狗头)

相关推荐
财经资讯数据_灵砚智能13 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月12日
大数据·人工智能·信息可视化·自然语言处理·ai编程
拖孩30 分钟前
我用 AI 搓了一个"比谁更持久"的微信小游戏,AI实现只用了一天,微信审核却用了一个月!!!
微信小程序·ai编程·游戏开发
Ts-Drunk32 分钟前
[特殊字符]深度解剖!Hermes-Agent 源码全解析(架构+核心流程+二次开发指南)
人工智能·架构·ai编程·hermes
恋猫de小郭42 分钟前
AI 的公开测评得分都在作弊,就像泡面的封面,一切以实物为准
前端·人工智能·ai编程
砖厂小工44 分钟前
Android 开发的 AI coding 与 AI debugging
android·ai编程
怕浪猫1 小时前
第12章 工具(Tools)与函数调用(LangChain实战)
langchain·aigc·ai编程
小程故事多_801 小时前
从Claude Code源码泄露,读懂12个可复用的Agentic Harness设计模式(生产级落地指南)
人工智能·设计模式·aigc·ai编程·harness
haibindev11 小时前
受够了Vibe Coding的失控?换个起点,让AI事半功倍
ai编程·claude·代码复用·vibe coding
虚无境11 小时前
关于10年工作经验的程序员对OpenClaw的实战经验分享以及看法
程序员·openai·ai编程
码农BookSea14 小时前
ReAct:让大模型学会边想边做
后端·ai编程