DeepSeek-V4-Pro 写代码到底行不行?我拿 GLM-5.1 跟它硬碰硬比了一轮

大家好,我是孟健。

DeepSeek-V4-Pro 发了,官方说代码能力大幅升级。这种话我听得多了,每次新模型发布都这么说。

但我确实好奇:V4 在写代码这件事上,到底有没有追上 GLM-5.1?

GLM-5.1 是我日常写代码的主力模型,用了几个月了,它什么水平我心里有数。所以这次我不跑 benchmark,不拼跑分,就拿我实际工作中的四个场景,让两个模型正面硬刚。

四个场景:源码分析、功能实现、大文件拆分、项目架构分析。

最后再算笔账,看看成本谁更划算。

场景一:项目分析,分析 Claude Code 源码

前段时间 Claude Code 源码泄露,我用 GLM-5.1 完整分析了一遍 Claude Code 源码,今天 DeepSeek-V4-Pro 发布,我同样也让它分析一遍源码看看。

基本上值得挖掘的功能,都仔细挖掘了一遍,看起来还不错。

场景二:借鉴 Claude Code 中的代码,从零开始完整实现一个功能

上次我让 GLM-5.1 分析完 Claude Code 源码之后,借鉴了代码中一些有意思的设计和点,重新从零开始完整交付了一个缓存管理系统;今天我们同样也让 DeepSeek-V4-Pro 试试看, 看看能否自主从零开始交付一个完整的项目。

经过一段时间的等待,可以看到 DeepSeek-V4-Pro 直接借鉴 Claude Code 源码 帮我实现了10个完整的功能模块;由此可见,DeepSeek-V4-Pro 的代码能力确实蛮强的。

场景三:拆文件,我刚好手头有一个项目,一个文件代码几千行

下面这个代码文件有1000多行,我们来尝试一下分别让 GLM-5.1 和 DeepSeek-V4-Pro 来分别拆分一下试试看。

1、DeepSeek-V4-Pro

2、GLM-5.1

同样的项目,同样的文件,同样的提示词,我现在让 GLM-5.1 拆一下看看。

现在 GLM-5.1 与 DeepSeek-V4-Pro 都已经对这个超过1000行的代码文件做完了拆分;GLM-5.1 将这个文件拆分为了4个文件,用时大概8分33秒;DeepSeek-V4-Pro 将这个文件拆分为5个文件,用时大概9分11秒。

在速度上,GLM-5.1 稍稍领先,DeepSeek 拆分的更为精细,将 compare 拆分为 通用工具、判断、新鲜度以及意图识别4个文件,拆分的更加精细,在代码文件拆分的精细程度上,似乎 DeepSeek-V4-Pro 略胜一筹。

场景四:项目架构分析

最近刚好做了一个项目,目前已经上线运行了,但是技术债有点严重,刚好借此时机让两个国产模型帮我分析项目架构并给出合理的调整建议。

1、DeepSeek-V4-Pro

2、GLM-5.1

可以看到,现在 DeepSeek-V4-Pro 以及 GLM-5.1 都对我的项目进行了分析并给出完整的分析报告,通过上面的项目架构分析可以看出,DeepSeek-V4-Pro 给出的架构分析比较全面,特别是最后的总结通过表格给出,还从不同的维度给出了评分,最后的一句话总结把项目的优劣都给说到了。

GLM-5.1 分析的也不错,当我让它开始分析项目的时候,它首先彻底全面的探索了我的整个项目目录,之后才进行分析,对于整体的项目架构分析的比较扎实;最后更是通过优先级排序的方式给出了项目的优化计划,最后还明确指出了项目没有使用D1原生绑定功能,给的建议更加实用,因此感觉GLM-5.1对于整体项目的把握度优 DeepSeek-V4-Pro。

关于使用成本

DeepSeek-V4-Pro 目前没有 Coding Plan,所以我是通过API直接接入 Claude Code 进行使用的,今天刚刚充值了100元,上面做了这些工作,花费15.75元。

GLM-5.1 因为有 Coding Plan,但是消耗的量也不少;下图为今日消耗详情。

维度总结

维度 DeepSeek-V4-Pro GLM-5.1 评价
源码理解能力 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ V4 能看懂,GLM-5.1 能吃透
功能实现质量 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ V4 进步大,边界处理还差一截
大文件处理能力 ⭐⭐⭐ ⭐⭐⭐⭐⭐ 这是差距最大的维度
项目架构分析 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 分析的更加扎实,给出的建议更加实用
使用成本 ⭐⭐⭐⭐⭐ ⭐⭐⭐ V4 的传统优势

结论:追上了吗?

部分追上了,但还没完全追上。

V4 在基础编码能力上的进步是实打实的,代码结构、命名规范、基本逻辑,这些做得都挺好。拿来写日常的中小功能,完全够用。

但在三个地方,V4 跟 GLM-5.1 还有明显差距:

  1. 深度理解:不只是看代码在做什么,而是理解为什么这么做

  2. 边界意识:对异常、错误、极端情况的预判和处理

  3. 长上下文管理:大文件、复杂项目中的全局把控能力

我的建议

  • 对于一些中等简单的任务 → V4 性价比更高

  • 复杂项目、源码级工作 → GLM-5.1 依然是首选

  • 预算紧但又需要质量 → 两个搭配着用,简单任务给 V4,关键任务给 GLM-5.1

V4 是个好模型,进步肉眼可见。但 Coding 这条赛道,GLM-5.1 目前还是国产天花板。

你平时用哪个模型写代码?在评论区聊聊你的体验。


👋 我是孟健,前腾讯 T11 / 前字节技术 Leader,现在全职做 AI 编程。

🔥 更多 AI 编程实战:

  • GitHub:@mengjian-github
  • 专栏:AI编程实战

觉得有用?点赞+收藏 就是最大支持 🙏

相关推荐
狼爷4 小时前
AI时代,程序员不被淘汰的核心学习路径
openai·ai编程
子昕5 小时前
DeepSeek V4 终于发了:用国产芯片训出世界级大模型
ai编程
阿杰学AI7 小时前
AI核心知识135—大语言模型之 OpenClaw(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·ai编程·openclaw
dgaf7 小时前
谢谢 AI (打靶测试用文)
c语言·gpt·ai编程·d3d12
Karl_wei8 小时前
你的AI 产品,需要尽快尝试 Agent
aigc·agent·ai编程
摆烂工程师8 小时前
GPT-5.5 发布:最贵模型上桌,OpenAI 又把牌局抬高了
chatgpt·openai·ai编程
敲代码的彭于晏9 小时前
Claude Code Token 烧得太快?这8个方案帮你立省90%!
前端·ai编程·claude
Lonwayne9 小时前
从提示词工程到驾驭工程:AI协作的三代进化
人工智能·ai·ai编程·ai智能体
xiaoxiang960910 小时前
Graphify从入门到精通:用知识图谱彻底改变AI编程效率
人工智能·知识图谱·ai编程