Trae + 国产4大开源模型AI编程对比,Deepseek暂时落后

在完成 MiniMax M2 测试后,在2025年11月底, 继续测试几个国产开源模型。

测试内容,还是从0到1创建10个页面的商城站点;工具则借助免费的更开放的 Trae 来测试。

这次参与测试的除了 MiniMax M2,还有 Kimi K2、GLM 4.6、Deepseek V3.1 terminus。

Deepseek 评价

经过测试,Deepseek 的表现暂时落后,毕竟发布时间是最久的一个了。

测试的成品跟上个月的 IDE 测试的成品相似度很高,估计之前大家用的都是 Deepseek 吧。

站点的完成度一般。有头无尾:Header 部分已实现,但 Footer 的站点地图、版权信息等缺失。图片尺寸问题、详情页过于简单、首页产品卡片混乱。

优点有:

  • 手机版兼容可用。
  • 修复 bug 能力不错:使用 JavaScript 转 TypeScript 时出现20多个问题,但修复过程相对顺畅。

缺点有:

  • 项目架构简单,仅包含页面、组件和样式三个文件夹。
  • 后续需要大量修改。
  • 最大问题是 MCP 操作能力一般,无法操作脚本生成项目,而是通过生成 package.json 方式,好在智力水平不错,出错少。

Kimi K2 评价

Kimi K2 宣传太好,一开始我对它期望挺高的。但是开发过程中问题较多,智能程度在本次测试中排名倒数第二。

一开始,发现它一直在写 HTML 和 JavaScript,全部页面写完才来补 CSS,我就觉得大事不妙了。出来的效果果然不理想。

最后修复页面样式问题,也花费了很多时间,依然没法兼容手机。

还有就是虽然使用了 Typescript,完成之后,居然没有验证。20多个问题,修改时间较长,相比其他模型信心不足。

另外,不知道为何触发了英文,后续我没纠正,一直给我飚英文。

优点也有,对比 Deepseek,它能调用命令行工具,项目结构有基本的设计:区分了 UI 组件和 Layout 组件。

总体而言,还是不太放心把工作交给 Kimi。

MiniMax M2 评价

亚军给到这次没有重复测试 MiniMax M2。

整体而言,站点的完成度优秀。

令人惊喜的是,一开始用的是 Javascript,转成 Typescript 之后,同样出现了 20多个问题,但是修复过程比 Kimi 要顺畅、要快,很少出现 Kimi 那样来回修改的情况。

另外虽然样式的兼容一般,但是一句话就修复了。

所以,它的优点是修复 bug 比较精准、比较快。

它除了能调用命令行工具,能给出项目结构图。项目整体的结构也优于其他模型。

Trae 提供的 MiniMax M2 服务响应较慢,如果是同样的资源分配,可能其消耗的资源比较大。

GLM 4.6 评价

这次的冠军要给到 GLM 4.6,有些出乎意料的低调选手。

印象比较深的是在其调用命令行工具创建时,我选错了一个项。导致无法用 Vite 创建,他也能很快的改用 npm create 重新创建项目。

项目跑起来后,初始只有10多个 TypeScript 错误,远优于其他模型。

对 bug 的修复速度、精准度我觉得和 Mini Max M2 不相伯仲。令我惊喜的是,在指出顶部菜单未适配手机端后,直接实现了抽屉菜单效果。可见 GLM 4.6 对样式的理解会更到位。

基于这三点,还是把本次的冠军给了 GLM 4.6。

项目结构上,略逊色于 Mini Max M2,但组件也有区分 Layout,样式独立,类型定义独立。优点是有模拟数据也有API,后期要对接后端也方便。

总结与展望

这次的评测,可以总结为一下的对比表格:

模型 完成度 命令行调用能力 项目结构 修复bug能力 兼容性
Deepseek V3.1 Terminus 一般 简单 相对顺畅 手机版兼容可用
Kimi K2 良好 一般 一般 信心不足,修改时间较长 无法兼容手机
MiniMax M2 优秀 一般 优秀 修复过程顺畅快速 样式兼容一般但易修复
GLM 4.6 优秀 优秀 修复速度快,精准 适配手机端,实现抽屉菜单

可以看到,相对其他模型有针对的 Coding 进行了优化,Deepseek 的目标似乎不在于此。所以目前落后也属正常。

而 Mini Max M2 和 GLM 4.6 的优秀表现,至少可以在前端领域放心使用了。他们并不比 Claude Sonnet 差。

同时,我们也不能静态地看待大模型,仅一个月差异,模型就有很大改进。

比如,上个月国产模型为赶上 Claude 4.5 而高兴,本月 Gemini 3 Pro 一骑绝尘,功能完成度远超其他模型。

新的目标已经出现,大模型提供商们还需继续努力~

相关推荐
Mintopia3 小时前
🎩 AIGC技术提升Web服务效率的量化分析:从成本到体验
人工智能·llm·ai编程
~央千澈~4 小时前
序章《程序员进化:AI 编程革命》——用 Cursor 驱动的游戏开发实战作者:卓伊凡
人工智能·ai编程
Karl_wei5 小时前
AI 只会淘汰不用 AI 的程序员🥚
aigc·ai编程·cursor
树獭非懒16 小时前
AI 大模型应用开发|基础原理
人工智能·aigc·ai编程
realhuizhu18 小时前
你的代码正在腐烂:为什么我们都不敢碰那座“屎山”?
ai编程·软件架构·代码重构·deepseek·技术债务
京东零售技术19 小时前
邀你一起体验|OxyGent 多智能体协作框架新版本发布 3个月1700位开发者实测认证
ai编程
LYFlied21 小时前
AI时代下的规范驱动开发:重塑前端工程实践
前端·人工智能·驱动开发·ai编程
草帽lufei1 天前
用 Gemini3 Flash 做了多半天开发,我离下岗又近了一步
google·ai编程·gemini
用户4099322502121 天前
Vue3动态样式管理:如何混合class/style绑定、穿透scoped并优化性能?
前端·ai编程·trae
和平hepingfly1 天前
Claude code 多种模型随时切换(最简单的方法)
ai编程