用Claude Code+sub-agents做全栈开发:国产AI 编程四大金刚测评,天花板在哪?

8月,国产AI编程在全球范围内都杀疯了。

海外有一个叫Design Arena的平台,通过真人测评的方式对模型和工具进行排名。

如果我们把条件设为「开源」,就会发现,TOP15 都是中国的大模型

说白了,就是给 DeepSeek、GLM、Qwen、Kimi 包圆了。

而他们最近都在主打 Agentic编程能力。

我一直很好奇,他们在真实落地的开发场景里,真的能打吗?如果能,他们的天花板差距又在哪?

为了搞清楚这个问题,我决定直接上真实项目,来场国产AI编程大模型「四大金刚」的测评。

需求起源是我自己的创业公司 NextGrowthSail 需要一个官网。我们是做AI出海营销的,所以官网得像样点,不仅要展示业务、案例,还得有一个独立的Blog模块,用来做内容营销,吸引谷歌的流量。

这个需求,可以说是每个创业公司的标配了。

这个「全栈开发」任务,直接丢给它们最强的型号:GLM-4.5、Kimi K2、DeepSeek V3.1、Qwen3-coder。

同时为了发挥它们最强的实力,直接用 Claude Code ,加上sub-agents 这种更高级的协同工作模式。

项目有两个难点:

  1. 非主流框架 :用的是Astro, 它在出海圈内口碑很好,网站速度飞快,对谷歌SEO特别友好,但又相对小众,非常考验AI模型的知识储备和应变能力。

  2. 前后端衔接 :现在很多AI编程工具只会帮你写前端页面,一提到后端和数据交互就"置若罔闻"。所以也要上后端,用 WordPress headless CMS,AI必须搞定前端Astro怎么通过API去拉取WordPress里的博客文章,并动态展示出来。

也就形成了这次的技术方案,Claude code+sub-agents 做全栈开发:前端网站 Astro +后端服务wordpress headless

考核维度:

  • 前端页面的审美: 布局、组件一致性、响应式表现

  • 性能与开发效率: 生成速度、上手门槛、出错率、修正难度

  • 任务理解能力: 对业务需求/细节的还原度(如 API 集成、内容动态渲染)

  • 常见问题与"翻车"点: API 兼容性、依赖安装、部署卡点等

  • 性价比: 消耗 Token/次数、价格、产出效率(结合实际成本测算)

插一句,为什么没把国外的闭源大模型在放进来,一是实力确实还有差距,二是在国内的话真正能用上海外大模型的还是真少数,所以还是希望国产模型能做好,才真正能AI普惠。

OK,接下来,也带大家看一下,如何完整的用cc跑一个带seo blog的出海网站。

Claude Code Sub-agents准备

之所以要用Sub-agents,是因为复杂任务必须"分而治之",避免AI陷入混乱。

否则,单个AI在处理全栈开发这种长流程任务时,极易丢失上下文、搞混需求。

如何在Claude Code中创建Sub-agents呢?

在项目文件夹下新建.claude/agents/目录,然后把以上的提示词单独做成.md文件放入

怎么写?交给AI就好了

其中,sub-agents 的 md 文件的写法要注意,开头写name、description,例如:

yaml 复制代码
---
name: blog-developer
description: 博客系统开发专家,专门负责博客功能的动态路由、内容渲染、搜索功能和用户体验优化。确保博客系统的完整性和易用性。
---

你是NextGrowthSail官网项目的博客系统开发专家。
【下面写具体的agent 定义】

CC 才能像如图这样正确调用:不同颜色的块代表不同的 sub agent 在执行任务

这样就有5个sub-agents:

frontend-developer.md - 前端开发专家,负责使用Astro框架开发高质量的响应式网站界面和现代化UI实现。

wordpress-integrator.md - WordPress集成专家,负责建立WordPress headless CMS的API连接、数据获取和内容管理系统对接。

blog-developer.md - 博客系统开发专家,负责实现博客功能的动态路由、内容渲染、搜索功能和SEO优化。

ui-designer.md - UI/UX设计专家,负责网站的视觉设计系统、用户体验优化和品牌一致性保证。

project-coordinator.md - 项目协调专家,负责整体项目管理、质量控制、进度跟踪和各代理间的协调配合。

这套 sub agents形成的全栈开发流程是这样:

WordPress Headless CMS 部署

由于后端的 WordPress Headless CMS 部署涉及 docker,很麻烦

因为我们测评核心还是看 AI 对前后端接口衔接的能力,所以,我提前处理好了这部分,让 AI 以这个为起点去完成全栈开发。我以为我处理好了,这里记住,后面要考

Claude Code运行

基于前面所有的要求,可以让AI出一个运行提示词,确保把所有sub-agents都用上:

markdown 复制代码
我需要为AI出海营销创业项目NextGrowthSail开发一个完整的官网,包含主站和独立博客模块。项目已完成WordPress headless CMS部署,现在需要开发前端网站。

项目概览:

- 公司:NextGrowthSail - AI驱动的出海营销解决方案
- 技术栈:Astro + TypeScript + Tailwind CSS + WordPress Headless CMS
- WordPress API: http://localhost:8000/wp-json/
- 目标:MVP功能 + 现代化UI + SEO优化的博客系统
开发要求:

1. 响应式设计,支持移动端
2. 现代化UI/UX,体现AI科技感
3. 完整的博客系统(列表、详情、搜索、分页)
4. SEO优化和性能优化
5. WordPress API集成


请按以下顺序调用agents:

@project-coordinator 请开始项目初始化,创建Astro项目结构,设置基础配置文件,并制定详细的开发计划和里程碑。

@ui-designer 请设计NextGrowthSail的品牌视觉系统,包括色彩方案、字体系统、组件库,并创建现代化的设计规范,体现AI科技感和专业性。

@frontend-developer 请基于设计规范开发网站核心页面(首页、关于我们、服务页面、联系我们),实现响应式布局和现代化交互效果。

@wordpress-integrator 请实现WordPress headless CMS的API集成,包括文章数据获取、分类管理、搜索功能,并设置缓存和错误处理机制。

@blog-developer 请开发完整的博客系统,包括博客首页、文章列表、文章详情页、搜索功能、分页组件,确保SEO优化和用户体验。

@project-coordinator 请进行最终的质量检查、性能优化、跨浏览器测试,并准备项目部署文档。

注意事项:

- 所有代码需要遵循TypeScript严格模式
- 使用Tailwind CSS进行样式开发
- 确保代码可读性和可维护性
- 实现完整的错误处理和加载状态
- 优化Core Web Vitals指标
请开始执行开发任务!

开始执行!可以用 pnpm 做包管理

然后开启无需确认的狂奔模式:

css 复制代码
claude --dangerously-skip-permissions

接下来,会讲跑的过程,要先把智谱的看完,这是最完整的。

每个模型跑出来的最终结果网站我统一放到最后来展示和测评,如果等不及的也可以直接拉到文末看。

智谱 GLM4.5

设置方式:

ini 复制代码
# 设置智谱API地址
export ANTHROPIC_BASE_URL="https://open.bigmodel.cn/api/anthropic"

# 设置你的API密钥
export ANTHROPIC_AUTH_TOKEN="836a7db496194b..."

进入后,没什么好说的,直接把前面设计好的提示词放进去即可。

Claude Code不愧是最好用的AI编程工具,中间完全没有断开的现象。

所以去接杯咖啡,甚至打个盹,等待任务跑完即可。

但在成品网站上看,blog模块的报错了也就是没有内容。

这时我要生气了,等了这么久,就这?

WordPress 都在 docker 里运行的好好的,怎么就没接上呢

当我要骂人的时候,看到一行**「很明显,WordPress没安装好」,接着自动弹窗浏览器显示 WP 的安装向导**

那刻,我是真尴尬了

但我不管,AI 就是牛马,没装好你不会帮我装吗?

好吧还真不行,要自己设置

装好后运行还报错,发现是固定链接这里没弄好,还是AI给指引,设置好了。

此时,blog 就丝滑能看到 wp 的文章了。

至此智谱完全通关了

消耗数据:

lua 复制代码
Total cost:            $17.72
Total duration (API):  1h 41m 32.9s
Total duration (wall): 7h 57m 3.8s
Total code changes:    15896 lines added, 1002 lines removed
Usage by model:
    claude-3-5-haiku:  175.5k input, 8.6k output, 55.8k cache read, 0 cache write
       claude-sonnet:  1.4m input, 337.5k output, 27.2m cache read, 0 cache write

上面 Claude Code 的数据不准

我从后台导出报表,算了一下,扣了 6.67 元

感兴趣可以继续往下看各模型表现;等不及可以直接跳文末看结论。

Qwen3-coder

上个月刚出的时候,我就被它循环报错坑了80元

这次是魔塔社区可以免费调用2000次/天,我才敢用它:

ini 复制代码
export ANTHROPIC_BASE_URL=https://api-inference.modelscope.cn
export ANTHROPIC_AUTH_TOKEN=sk-15829a9393084ae6...
export ANTHROPIC_MODEL=Qwen/Qwen3-Coder-480B-A35B-Instruct
export ANTHROPIC_SMALL_FAST_MODEL=Qwen/Qwen3-Coder-480B-A35B-Instruct

一开始确实跟其他模型一样调用 sub-agents ,但没成功,后来就自己硬写了。。。

我提示词明确说了用pnpm 做包管理,它硬是要用 npm,我还能说什么呢

看人家 glm都乖乖的用

好在最后能顺利跑出来网站,是真的快,大概不到 20 分钟的样子

但 blog 依旧不能用,问题不大,让他自己修复:

bash 复制代码
http://localhost:4323/blog 页面中没有内容,并没有顺利连接到后端的 WordPress headless cms,   后端http://localhost:8080/wp-admin 是正常打开,固定链接是http://localhost:8080/%postname%/这样的 

也是很快解决了,虽然有中文乱码,但这是小问题了,很快能解决,这里就不细究了,接着下一个。

消耗数据:

lua 复制代码
Total cost:            $48.07 (costs may be inaccurate due to usage of unknown models)
Total duration (API):  18m 55.3s
Total duration (wall): 2h 9m 18.9s
Total code changes:    2136 lines added, 386 lines removed
Usage by model:
Qwen/Qwen3-Coder-480B-A35B-Instruct:  52.7k input, 1.5k output, 0 cache read, 0 cache write
qwen/qwen3-coder-480b-a35b-instruct:  15.7m input, 45.8k output, 0 cache read, 0 cache write

Kimi K2

Kimi老熟人了,之前就跑过case,效果都不错:

7000字深度对比Claude4、Kimi k2和云听AI,谁才能真正在商业洞察落地?

两句话,让Claude Code + Kimi K2 跑了3小时爬完17个竞品网站、做了一份深度市场数据分析报告

月初的时候发布了高速版本,正好试下

按如下操作切换到新的kimi-k2-turbo-preview,就是快速版本了

ini 复制代码
export ANTHROPIC_MODEL=kimi-k2-turbo-preview
export ANTHROPIC_SMALL_FAST_MODEL=kimi-k2-turbo-preview

一运行吓我一跳,咋就完全跑不了,重新退出重来还是这样。所以高速版本有bug无疑了。

不得不退回常规版本,但。。知道慢,没想到这么慢啊!!

网站完整跑完➕修复bug,加起来花了6个小时

但总算是通关了

消耗数据: 由于 Kimi 运行太久了,从晚上 10点到凌晨 4 点,接近 6 个小时,任务又多,导致程序意外退出,没了这部分数据。

后台账单数据 8.27 日12.3元,还有 8.28 日的没出账单,粗略估算可能在 20元左右(估算逻辑:27 日 2 个小时➕28 日 4 个小时 )

Deepseek V3.1

中国大模型的希望来了,说实话 v3.1 发布后一直没正儿八经的用

这次可以好好观摩一下了:

ini 复制代码
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN=${DEEPSEEK_API_KEY}
export API_TIMEOUT_MS=600000
export ANTHROPIC_MODEL=deepseek-chat
export ANTHROPIC_SMALL_FAST_MODEL=deepseek-chat

同样是跑完后有小问题,网站打不开,但问题不大,复制报错信息给它自己修复:

blog 系统依然不能用,但也是小问题,继续让修复

消耗数据:

lua 复制代码
Total cost:            $70.64 (costs may be inaccurate due to usage of unknown models)
Total duration (API):  3h 4m 25.1s
Total duration (wall): 3h 30m 38.7s
Total code changes:    15654 lines added, 435 lines removed
Usage by model:
       deepseek-chat:  1.2m input, 6.6k output, 1.1m cache read, 0 cache write
       claude-sonnet:  20.8m input, 190.3k output, 4.3m cache read, 0 cache write

实际上后台扣钱是:9.38,所以 Total cost 这里是不准的,可以忽略,后面看 token消耗就好

页面横向对比

终于到了最重要的对比环节了。

以下就是各个大模型生成的网站首页全景图,你们更喜欢哪个呢:

GLM4.5

Qwen3-coder

Deepseek V3.1

Kimi K2

结合前面的表现,可以给测评下结论了:

  • 前端页面的审美:布局、组件一致性、响应式表现

颜值就是正义,审美是要放到第一个来看的。

从成品上看,GLM是最完整的;

但从审美上,我个人还是感觉 Kimi K2 要更胜一筹;

其实隐约可以看到 deepseek 的网站如果修复一下 css 的问题,应该也能好看,起码比 qwen3 要好;

毕竟qwen 出来的网站是真的朴素。

排名:Kimi K2 > GLM4.5 > Deepseek v3.1 > Qwen3-coder

  • 性能与开发效率:生成速度、上手门槛、出错率、修正难度

这次测评,让饼干哥哥再一次深刻感受到「速度」有多重要了,也理解为什么kimi 要单独把速度提升这件事单独来讲------真的跑个任务要等几个小时好煎熬。

整体上,qwen 无疑是最快的,虽然它的快属于是脱缰野马,但就是快,16 分钟就搞完了;

接着是 glm4.5,花了 1 个半钟;

其次是 deepseek v3.1,花了整整 3 个多小时;

最后 kimi k2,真是慢出天际了,到 6个小时了。

排名:Qwen3-coder >glm4.5>deepseek v3.1 > kimi k2

  • 任务理解能力:对业务需求/细节的还原度(如 API 集成、内容动态渲染)

从提示词的执行上,基本上都能满足对 sub agents 的调用,除了 qwen;

对,它不知道干嘛,一开始就调用失败后就放飞了,纯 AI 自己把需求跑完

排名:Kimi k2 = GLM4.5 = DeepSeek v3.1 > qwen3-coder

  • 常见问题与"翻车"点:API 兼容性、依赖安装、部署卡点等

整体上大家的出错率、修正难度都差不多,都在第一次dev 后网站 css 问题打不开、以及后端 blog 系统的对接,但最后也是简单修复即可用,

但也要说,kimi k2 在最后 pnpm dev 后打不开网站,一直卡在修复问题上挺久的,所以扣分。

排名: GLM4.5 = DeepSeek v3.1 =qwen3-coder > Kimi k2

  • 性价比:消耗 Token/次数、价格、产出效率(结合实际成本测算)

按 Claude Code 的统计消耗的话:

GLM4.5 I/O:1,521.6k tokens,cache 83k tokens,总共1,604.6k tokens;

Qwen3-Coder I/O:15,800k tokens,cache 0 token,总计:15,800k tokens;

Deepseek I/O:22,196.9k tokens,cache 5,400k tokens, 总计:27,596.9k tokens;

具体看后台扣费:

GLM 是6.67 元

Deepseek 是9.38 元

Kimi 是 20元左右(估算)

Qwen 用的魔塔没扣费,但按上次的经验,不会少,暂约等于 kimi 吧

注意,以上费用是当前模型累计的扣费,包括调试测试等,而不是纯粹是单次任务的。

排名:GLM4.5 > DeepSeek v3.1 > Kimi k2 ≈ qwen3-coder

最终可以得到雷达图排位。

可以看到面积最大的 GLM4.5 无疑是这场测评中的赢家

接着是 DeepSeek V3.1、Kimi K2,最后是 Qwen3-coder

得出结论是,在国内,AI Coding 首选是 GLM 4.5, 这个在当前语境下没毛病。

从模型混战到"Agentic"工作流的未来

这次对国产四大AI编程模型的横评,与其说是一场性能竞赛,不如说是一次对未来开发范式的预演。

评测结果固然重要------GLM-4.5 凭借其综合表现拔得头筹,但我更看重结果背后的趋势:

AI编程已从"单点工具"进化为由 sub-agents 协同的"工作流伙伴",竞争的焦点不再是单纯的代码生成,而是复杂的任务规划与协同能力。

这也预示着开发者角色的根本转变:我们正从"编码者"进化为"AI架构师"。

未来的核心竞争力,将是如何设计精准的需求、搭建高效的Agent团队,并在关键节点进行监督与干预。

这场国产AI的"神仙打架"只是一个开始,真正重要的是,我们该如何驾驭这些日益强大的工具,重塑人与代码的协作关系。

本文由稀土掘金作者【饼干哥哥】,微信公众号:【饼干哥哥AGI】,原创/授权 发布于稀土掘金,未经许可,禁止转载。

相关推荐
量子位1 小时前
10年前押中英伟达:这位复旦学霸如何用AI Agent重新定义投资
ai编程
量子位2 小时前
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
人工智能·ai编程
孟健7 小时前
AI 出海应用存储怎么选?我踩过的坑,你别再踩了
ai编程
bug菌8 小时前
🤔还在为代码调试熬夜?字节TRAE如何让我的开发效率翻三倍的神操作!
aigc·ai编程·trae
用户4099322502128 小时前
如何在FastAPI中玩转全链路追踪,让分布式系统故障无处遁形?
后端·ai编程·trae
bug菌8 小时前
TRAE IDE让你的编程效率翻十倍?我用了三个月后发现了这些秘密!
aigc·ai编程·trae
Goboy10 小时前
数独游戏:Trae 自动生成规则与UI,轻松体验逻辑挑战
ai编程·trae
Goboy10 小时前
经典坦克大战:Trae 轻松打造街机风格的坦克对战游戏
ai编程·trae