大家好,我是孟健。
DeepSeek-V4-Pro 发了,官方说代码能力大幅升级。这种话我听得多了,每次新模型发布都这么说。
但我确实好奇:V4 在写代码这件事上,到底有没有追上 GLM-5.1?
GLM-5.1 是我日常写代码的主力模型,用了几个月了,它什么水平我心里有数。所以这次我不跑 benchmark,不拼跑分,就拿我实际工作中的四个场景,让两个模型正面硬刚。
四个场景:源码分析、功能实现、大文件拆分、项目架构分析。
最后再算笔账,看看成本谁更划算。
场景一:项目分析,分析 Claude Code 源码
前段时间 Claude Code 源码泄露,我用 GLM-5.1 完整分析了一遍 Claude Code 源码,今天 DeepSeek-V4-Pro 发布,我同样也让它分析一遍源码看看。


基本上值得挖掘的功能,都仔细挖掘了一遍,看起来还不错。
场景二:借鉴 Claude Code 中的代码,从零开始完整实现一个功能
上次我让 GLM-5.1 分析完 Claude Code 源码之后,借鉴了代码中一些有意思的设计和点,重新从零开始完整交付了一个缓存管理系统;今天我们同样也让 DeepSeek-V4-Pro 试试看, 看看能否自主从零开始交付一个完整的项目。





经过一段时间的等待,可以看到 DeepSeek-V4-Pro 直接借鉴 Claude Code 源码 帮我实现了10个完整的功能模块;由此可见,DeepSeek-V4-Pro 的代码能力确实蛮强的。
场景三:拆文件,我刚好手头有一个项目,一个文件代码几千行
下面这个代码文件有1000多行,我们来尝试一下分别让 GLM-5.1 和 DeepSeek-V4-Pro 来分别拆分一下试试看。

1、DeepSeek-V4-Pro


2、GLM-5.1
同样的项目,同样的文件,同样的提示词,我现在让 GLM-5.1 拆一下看看。



现在 GLM-5.1 与 DeepSeek-V4-Pro 都已经对这个超过1000行的代码文件做完了拆分;GLM-5.1 将这个文件拆分为了4个文件,用时大概8分33秒;DeepSeek-V4-Pro 将这个文件拆分为5个文件,用时大概9分11秒。
在速度上,GLM-5.1 稍稍领先,DeepSeek 拆分的更为精细,将 compare 拆分为 通用工具、判断、新鲜度以及意图识别4个文件,拆分的更加精细,在代码文件拆分的精细程度上,似乎 DeepSeek-V4-Pro 略胜一筹。
场景四:项目架构分析
最近刚好做了一个项目,目前已经上线运行了,但是技术债有点严重,刚好借此时机让两个国产模型帮我分析项目架构并给出合理的调整建议。
1、DeepSeek-V4-Pro





2、GLM-5.1





可以看到,现在 DeepSeek-V4-Pro 以及 GLM-5.1 都对我的项目进行了分析并给出完整的分析报告,通过上面的项目架构分析可以看出,DeepSeek-V4-Pro 给出的架构分析比较全面,特别是最后的总结通过表格给出,还从不同的维度给出了评分,最后的一句话总结把项目的优劣都给说到了。
GLM-5.1 分析的也不错,当我让它开始分析项目的时候,它首先彻底全面的探索了我的整个项目目录,之后才进行分析,对于整体的项目架构分析的比较扎实;最后更是通过优先级排序的方式给出了项目的优化计划,最后还明确指出了项目没有使用D1原生绑定功能,给的建议更加实用,因此感觉GLM-5.1对于整体项目的把握度优 DeepSeek-V4-Pro。
关于使用成本
DeepSeek-V4-Pro 目前没有 Coding Plan,所以我是通过API直接接入 Claude Code 进行使用的,今天刚刚充值了100元,上面做了这些工作,花费15.75元。

GLM-5.1 因为有 Coding Plan,但是消耗的量也不少;下图为今日消耗详情。

维度总结
| 维度 | DeepSeek-V4-Pro | GLM-5.1 | 评价 |
|---|---|---|---|
| 源码理解能力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | V4 能看懂,GLM-5.1 能吃透 |
| 功能实现质量 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | V4 进步大,边界处理还差一截 |
| 大文件处理能力 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 这是差距最大的维度 |
| 项目架构分析 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 分析的更加扎实,给出的建议更加实用 |
| 使用成本 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | V4 的传统优势 |
结论:追上了吗?
部分追上了,但还没完全追上。
V4 在基础编码能力上的进步是实打实的,代码结构、命名规范、基本逻辑,这些做得都挺好。拿来写日常的中小功能,完全够用。
但在三个地方,V4 跟 GLM-5.1 还有明显差距:
-
深度理解:不只是看代码在做什么,而是理解为什么这么做
-
边界意识:对异常、错误、极端情况的预判和处理
-
长上下文管理:大文件、复杂项目中的全局把控能力
我的建议:
-
对于一些中等简单的任务 → V4 性价比更高
-
复杂项目、源码级工作 → GLM-5.1 依然是首选
-
预算紧但又需要质量 → 两个搭配着用,简单任务给 V4,关键任务给 GLM-5.1
V4 是个好模型,进步肉眼可见。但 Coding 这条赛道,GLM-5.1 目前还是国产天花板。
你平时用哪个模型写代码?在评论区聊聊你的体验。
👋 我是孟健,前腾讯 T11 / 前字节技术 Leader,现在全职做 AI 编程。
🔥 更多 AI 编程实战:
- GitHub:@mengjian-github
- 专栏:AI编程实战
觉得有用?点赞+收藏 就是最大支持 🙏