智谱GLM 5.2 实测:5轮编程测试对比GPT与Claude

本文整理自 B 站「神烦老狗」的《模型乱斗:智谱新模型 GLM 5.2 对比 GPT 与 Claude 表现如何?》,通过音视频转录总结工具 Ai好记 进行视频转笔记整理,以下为精炼整理后的内容。


两天前智谱发布了 GLM 5.2,官方声称上下文长度增加、能力逼近顶尖旗舰。但宣传归宣传,实际水平如何?

博主「神烦老狗」做了一组很有意思的对比测试:

同时打开 GPT Codex、智谱 Zcode 和 Claude 三个窗口,针对 5 个不同难度的编程任务做了平行实验。

测试设置了相近的思考强度------GPT 和 Claude 选择「高」,智谱选择「最高」(它只有高/低两档)。

先从价格看一眼各家定位:

模型 最低档 中档 高档
Claude Pro $18/月 Max $110/月 ---
智谱 GLM 5.2 Lightpro $16.2/月 中档 $64.8/月 Max $144/月
GPT Lite $8/月 Plus $20/月 Pro $100/月

任务一:液态玻璃个人主页

命题很简单:不用任何 CSS 框架,给博主做一个个人主页,风格采用苹果的液态玻璃效果。

GLM 5.2 表现:生成速度最快,几秒就出结果。但审美好坏先不说,效果只能叫「半透明毛玻璃」,不是液态玻璃。博主原话:「可以说是非常的丑」。

Claude 表现:同样把液态玻璃理解成了毛玻璃。圆角偏小、配色堆在一块,比智谱略好但本质没区别。

GPT 表现:与前两者大同小异,也没做出真正的液态玻璃质感。

有意思的是,三款模型对这个前端概念的理解完全一致------都导向了毛玻璃,这说明训练数据里液态玻璃的标注可能就模棱两可。

任务二:超级马里奥游戏

让三个模型各自写一个高还原度的《超级马里奥》HTML 游戏。

复制代码
各模型耗时对比:
Claude:7 分 52 秒(先完成)
GPT:7 分 52 秒(几乎同时)
GLM 5.2:约 20 分钟
评测维度 Claude GPT GLM 5.2
完成速度 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐
音效 ✅ 有音效 ✅ 音乐控制正常 ⚠️ 静音按钮失效
游戏逻辑 ⚠️ 问号位置不合理 ✅ 相对完善 ❌ 移动速度过快
关卡设计 ⚠️ 障碍物布局奇怪 ✅ 可正常游玩 ❌ 元素异常

Claude 最先出成品------有音效、有基本玩法,但关卡设计上有明显缺陷(比如那个问号方块放的位置没人能顶到)。

GPT 中规中矩,游戏机制可运行,完成度优于前两者。

GLM 5.2 耗时最长(约 20 分钟),且游戏存在移动速度过快、静音按钮失效等问题。

任务三:小丑牌卡牌修改

这个测试最有意思。让三款模型修改本地《小丑牌》游戏,添加一张新卡牌。

GLM 5.2 展现了一个出乎意料的能力------先调研再动手。它先分析了游戏文件结构,找到卡牌数据文件,然后成功添加了一张自定义卡牌,效果逆天(与其他卡牌组合后分数爆炸)。这种「自己先读代码再修改」的自主调研能力,让人印象深刻。

GPT 相对保守,设计的卡牌触发条件苛刻,实际测试强度偏低。

Claude 敏锐地发现了代码中的改动痕迹,设计了一张个性化卡牌「老狗」,但能力同样严重超标------每回合自动加 5 倍,搭配其他卡牌后更变态。

任务四:图书馆管理系统

让三个模型从零开发完整的图书馆管理系统(前后端 + 数据库)。

python 复制代码
# Claude 实现的关键设计亮点示例
class Book:
    def __init__(self, id, title, author, isbn, available=True):
        self.id = id
        self.title = title
        self.author = author
        self.isbn = isbn
        self.available = available
        self.borrower = None
        self.borrow_date = None

    def borrow(self, user):
        if not self.available:
            return False, "该书已被借出"
        self.available = False
        self.borrower = user
        return True, "借阅成功"
    
    def return_book(self):
        if self.available:
            return False, "该书未被借出"
        self.available = True
        self.borrower = None
        return True, "归还成功"
考察维度 Claude GPT GLM 5.2
功能完整性 ✅ 用户管理+借阅管理+密码修改 ✅ 基本功能完整 ❌ 管理员可借书(逻辑错误)
逻辑严谨性 ✅ 防止重复借阅、防误删自身账户 ⚠️ 可借空库存 ❌ 无法后台添加用户
细节处理 ✅ 修改密码+删除限制 ❌ 借阅信息有漏洞 ❌ 借阅信息显示不全

Claude 在这个任务上表现最优,功能完备、逻辑严谨、细节到位。GPT 基本盘稳但有小漏洞。GLM 5.2 存在登录注册功能正常,但管理员借书逻辑错误、无法后台添加用户等问题。

任务五:交互式视频展示网站

最后一个任务:制作一个鼠标滑动控制视频播放方向的展示网站。

测试结果有点意外------只有 Claude 正确理解并实现了需求,鼠标拖动自然、无卡顿,界面审美风格统一。

GPT 的交互区域限制不合理,播放方向与鼠标控制相反,效果卡顿。

GLM 5.2 完成速度快(仅 2 分 19 秒),审美在线但功能缺陷明显------视频加载和播放有问题,交互严重卡顿。

结论:GLM 5.2 到底行不行

从这 5 轮测试看:

  1. 进步明显:相比前代 GLM 5,5.2 的提升是肉眼可见的,尤其是在代码理解和小范围代码修改(任务三)上展现了一定的自主性
  2. 性价比可以:$16.2/月起步,处理简单编程任务没问题
  3. 距离顶尖还有差距:复杂系统开发(任务四、五)上,与 Claude 和 GPT 的差距仍然存在

用博主的话说,这就是目前国产模型追赶的一个真实切面------算力差距客观存在,但迭代速度确实在加快。对于写脚本、修 Bug、做小工具这些日常需求,GLM 5.2 已经够用了。


以上内容由 Ai好记 转录整理。

Ai好记 是一款音视频转图文笔记的 AI 学习助手,支持 B站、抖音、小宇宙等平台链接及本地、网盘的音视频文件解析,自动生成精华速览、思维导图和结构化笔记等内容,帮助你把几小时的视频内容变成可搜索、可复习的图文笔记。

FAQ

Q:GLM 5.2 支持多模态吗?

A:不支持。上下文本地加了,但多模态仍然缺失,是个遗憾。

Q:这三个模型日常写代码选哪个?

A:预算充足选 Claude(复杂系统表现最优),中等预算选 GPT(稳定可靠),预算有限或简单任务选 GLM 5.2(性价比不错)。

Q:GLM 5.2 在小丑牌测试中表现好的原因是什么?

A:展示了较强的代码调研能力------先读文件结构再动手改,而不是直接生成新文件覆盖。这说明它在代码理解上确实下了功夫。