关于 GLM5.2 我已经测过很多,并且写过一篇非常长的文章了。
我的结论是:绝对干不过 Opus4.8!
所以要是不加前提地说"GLM5 超过 Opus4.8",就是一个鬼故事!
但是今天,我不是来抨击 GLM5.2 的,缺点我已经说过了。
今天是来探讨一下优点或者进步点:前端!
今天早上打开 X,大模型竞技场的官方账号发布了这样一条消息:

这个内容的中文意思是:
激动人心的消息:GLM-5.2 (Max) 在 Code Arena: Frontend 中排名第 2,
比 Claude Opus 4.7 (Thinking) 高出 +29 分,仅落后于 Fable 5!
GLM-5.2 是对 Kimi-K2.6 和 Minimax-M3 领先优势最大的最佳开源模型。
- React 子排行榜第 2 和 HTML 子排行榜第 4
- 在几乎所有子类别中排名第一:品牌与营销、基于参考的设计、数据与分析、消费品、游戏和模拟。
一句话总结:GLM5.2 前端已经超Opus4.8Thinking,仅落后于Fable5!
大模型竞技场和单纯的基准数据不一样,是有真人参与盲测的。虽然现在水分也很大,每次国产模型发布都会刷一次榜,但是比基准要靠谱一点。虽然我不相信这个排名,但是它能排到第二也是能说明一些问题的。
我们印象中,GLM系列的前端是短板,没想到现在都要成为优势项目了!
这其实是一个好消息,对于真的在用 GLM5.2 的人来说!
这样 GLM5.2 就更加全面了,花的钱更值了!

关于它前端能力增强的问题,我其实在之前的两篇文章中都讲过!
虽然我不知道为什么,但是确实像是加了一个精美 SKILL一般,所有网页设计好像都精致了很多,在布局方面要超 GPT5.5(主要是它前端太拉了)。
所以这篇文章重点来讲一下前端的问题!各位不要小看前端,前端最复杂的是它和终端用户直接接触,和人接触的东西其实都是很复杂的。
今天正好借机给大家看一下 GLM5.2 相比 GLM5 老版本的差别。

另外也可以拿 Opus4.8 来做一个对比。
今天不喷人啊,前几天测试太累了,就安安静静地给大家做个对比。可以让大家在选择模型的时候做到"心中有数"!
我就挑几个比较有代表性的例子。
先上一个视频,然后慢慢讲!

1、赛博朋克版清明上河图
我们先来看这个项目,这个项目体现的特别明显!

这个题目的命题比较特殊,各家大模型公司应该没有进行过针对性训练。所以非常有代表性! 泛化、审美、布局逻辑牛逼的模型才能做得好。很多模型完全就是混日子!
下面直接看效果。
Opus4.8效果:

GLM5.0的效果:

GLM5.2的效果:

这个对是不是非常明显!
GLM5.0 的时候完全不成样子。但是 GLM5.2 各种建筑和物体的形态都已经出来了,我觉得已经做的不错了。可以进步的地方是,它赛博味儿够了,清明味没有。
Opus4.8 房子的线条、灯笼、配色、文字,清明味浓一些,赛博和清明上河图的融合会更好一点。
当然,还有一位选手更厉害:

古人的服装都出来了!还有上善门,汴河水水位播报!

虹桥,反重力枢纽!上面的两种飞行器,下面是船和倒影!
后面远景图都做出来了:

意境拉满!
好了好了,不说它了,它不是主角!
主角是GLM5.2,我们可以看到相比之前的版本是巨大的提升,在众多国产模型中,也是处于出类拔萃的程度。因为其他国产模型基本上就是GLM5.0的效果。
2、无限流终端
无限流终端需要构思一个冒险故事,然后可以通过玩家的选择推进故事,可以一直玩下去,然后还要考虑到蝴蝶效应。你的选择,会在后面体现因果。
这个例子本身是考脑子的,没想到 GLM5.2 视觉效果超乎寻常地优秀!所以我也拿来说一下!
Opus4.8的效果:

GLM5.0的效果:

GLM5.2 的效果: 
这一趴 Opus4.8 我不评论了,你们可以去玩一下看看它的逻辑能力。我们主要是看一下,GLM5 和 5.2 的差别。
GLM5 处于布局崩塌的状态,内容出框了。
GLM 5.2 布局正常了,动画效果超级酷炫,在视频中应该能感受到!
当然,它这个配色和深浅关系也是处理的恰到好处!
这个题目,我还专门开发过一个桌面软件:

当时用的模型是 GLM5.1,故事还可以。现在感觉可以把视觉效果和模型升级一下!
3、华丽的五子棋对战
这个题目算法和 UI 双重考验!五子棋的项目已经出现在 ZCode 官方演示中了,所以应该有优化。
我们直接看结果。
Opus4.8的效果如下:

GLM5.0的效果如下:

GLM5.2的效果如下:

Opus4.8有点过于完美,我不说了。无论是智商,还是审美,还是主题贴合度都非常不错了。
GLM5.0 设计感是很差的,蓝色背景完全不符合主题。
GLM5.2 棋盘,背景,配色都有了优化。当然,这个主题其实最好不要配这个底色,还能优化一下。
金色的配色,帮它拉回来了一些。但是这个例子有 Bug......哈哈哈!上篇文章分析过了。
4、霓虹奔跑者
这个例子其实有点冒险岛的感觉,就是不停地往前推进,支持二级跳,然后地图要做 3 层视差,最后死了要能炸开。
Opus4.8的效果如下:

GLM5.0的效果如下:

GLM5.2的效果如下:

这一波 GLM5.2 还是比较优秀的。长出腿了,而且有一点点炸开的效果了。重点是它这个画面纵深感做得非常好,这是一种空间能力的体现。
5、3D太阳系
这个例子本来是考验 3D 效果的。就是用一个 HTML 文件实现一个交互式 3D 太阳系模型。
GLM5.2 虽然 3D 效果不足,但是可以发现抽象艺术玩得还可以。
下面是 Opus4.8 的效果: 
GLM5.0的效果:

GLM5.2的效果:

Opus4.8 是纹理拉满了,所有选手中最强,写实感最强。
而 GLM5.2 这一波玩了一个抽象,它只是用简单的线条来构建这个 3D 太阳系,不够写实,但是它线条处理还可以,就是有一些设计感!
我用 ZCode 生成的所有例子,都充满了"设计感"!
所以基本上可以确定 GLM5.2 在前端方面是有专门练过的。目前看有点过分精美,设计感过强,可能会出现什么作品都是这个味儿的感觉。但是比之前的版本确实好多了,没有那么粗糙了。
从上面的一些例子也可以看出来,有些场景下,确实视觉效果和交互效果都很赞,能局部打赢 Opus4.8,这是一个好消息。当然论全面能力,实话实说,差距还不小。在处理时间、思考深度、首次准确率方面还有待提升!
智谱的路是对的,它一直在向 Claude 看齐,专注于提升模型自身的能力,而且对 Claude 兼容性也很高。Opus 用不上的情况,GLM5.2 也是一个不错的选择。要比顶尖的部分,它还不行。但是回归到现实场景,对国内用户,尤其是开发者来说还是首选。
所有的例子都已经上传到JarvisUni的topai页面!

这次我还做了一个小升级,以后除了模型之外,还会备注一下生成这个网页的"智能体" 工具!

现在的比拼已经不单单是一个模型 了,而是全方位的比拼,大家都开始做工程上的优化,都推出了自己Harness!所以要备注一下工具和模型,这样会更加全面一些!
网址:
网页效果,要在网页上才能看得出来!