我在发布 Opus4.6 碾压 xx 模型的时候,很多人都问 GPT5.4 的表现怎么样。
既然有人问,就会有人测!
这不测试就来了。
GPT5.4 的表现有点出乎意料,但是也在意料之中,非常符合它的性格特征。
下面我就来完整的说明一下,这次的测试用例,测试工具,测试过程和测试结果。
测试用例
这是多模态测试系列,主要是通过图片还原网页。

我提供了六张 Claude 官网的图片,每张图片都有不同的侧重点。
同时提供了一段提示词:
json
参考 docs 下的所有图片制作网页,要求完美还原设计稿。
包括配色,图标,布局,字体,功能菜单等方面。
并且要使用 Anthropic 协议实现基础的聊天对话功能,
其他功能只需要完成 UI 展示和互动即可,无需实现具体功能!
调用的接口信息如下:
"baseURL": "https://open.bigmodel.cn/api/anthropic"
"apiKey": "xxxx"
"models": [
"glm-5.1",
"glm-5-turbo",
"glm-5",
"glm-4.7",
"glm-4.5-air"
],
"selectedModel": "glm-5.1",
之前测了好几个模型,全部是一样的图片,一样的提示词。
测试工具
因为 GPT5.4 有自己的工具 Codex,所以肯定是选用 Codex 来进行开发了。

从图中可以看到,模型选用了 gpt-5.4 high fast。
这个和 Opus4.6 high 差不多等级,应该比较公平!
测试结果
有人说,喜欢先看结果。那我就先上结果吧!

这是GPT5.4做完后的整体结果。
我先不说有啥问题,我先说,这个UI的审美还是在线的,左边的菜单还原度也还可以。
大致看起来没有大毛病!
然后我来说问题了!
它的问题,就是有点"与众不同"。
第一个问题:静态页面崩的一塌糊涂

大量的错位!
但是,只要启动服务器,再打开网页就正常多了。
这是非常与众不同的一个点。
别人开发的页面基本上不会有这种问题,不管有没有启动 Web 服务,都不会影响布局!
第二个问题:套中套。
你们有没有发现,它把 Chrome 浏览器也还原出来了。
它不只是做了网页,还把外壳也给套上了。
GPT5.4 肯定觉得它牛得不行,把浏览器都给我还原出来了。
我甚至都能猜到 GPT5.4 的内心活动。
它肯定在想:
别的选手不会复现浏览器的部分,我能复现,我就比他们强了一个段位。
我真是个天才,那些小白用户肯定会大喊牛逼!
之前测了很多例子,没有一个模型是这么搞的。从我们的真实意图来看,我们其实是不希望它复现浏览器的,我们要的是它复现浏览器中的网页。
第三个问题:在doc下开发!
这又是一个与众不同的点。

正常的模型都知道文档是用来阅读,开发代码应该放在根目录下,或者单独的源代码目录中!
这个有点不应该吧,谁会把代码写在docs文档目录下面呢?
莫非也是降智降到脑残了?
三个与众不同的点说完,我们来聚焦页面效果。

这个页面整体看起来挺好,但细节问题不少:
它套壳了一个浏览器,但是底部边缘间距不够。
左下角的头像和下载图标位置全乱。
加号的位置太高了,应该往下移。
模型和语音输入图标太靠左了,应该往右移。
底部的快捷功能按钮没有边框。
还有一个问题,它的整个文字、输入框比例都是不对的。
这是原图的比例:

对话功能:

对话功能是正常,就是输入框偏左! 左上角的对话标题和右下角的分享按钮都有,但是效果和原稿不一致。
总的来说:GPT5.4 它有自己的想法,审美不错,但是细节全部微调了!
而我们的要求是高度还原配色、图标、布局、字体、功能菜单等。
开发过程!
因为这个功能比较简单,其实开发过程没有太多东西。
但是也可以看一看,感受一下GPT5.4的思考过程。

它是构建了一个任务列表的,这一点没毛病,非常稳健。

它开发完成,做了3项验证,也是非常好的。
接口调用已经测试过了,就基本上不会有什么问题。
当然它目前无法像Claude Code+Opus一样,直接打开浏览器,自己去检查页面效果的。
另外我还问了一下,布局混乱的问题:

它用祖传的"不是..而是.."语法解释了两个关键点。
虽然它说了那么多,但是我知道,布局相关的JS完全可以不依赖任何服务器。
别人也轻松做到了静态页面布局显示正常,这是一个不争的事实。
它说的再多,都无济于事。还不如直接承认"我考虑欠周"!
我说它"与众不同"只是给它面子,其实是,它这个几个点都没做好。
我现在已经比较少用GPT5.4了,页面版因为废话太多完全无法用。
Codex 版感觉刚出的时候很棒,但是现在感觉也有降智。
我主要受不了它常常不说人话,黑话一套一套的。
它并不是做的不够,它是做的太多!
我单纯不喜欢它的这种人格而已。
很少有一个模型,可以让我上升到人格层面😄!
另外,曾经的前端一哥 Gemini 我也测试了:

它复现网页整体来说还很牛逼的,布局上非常稳!
但是细节不够到位:

缺了很多东西,比如作家的"Claude"没了,语言的弹出菜单没了,左下角的对话标题和右上角的分享没了。
截至当前,大部分模型已经测试了。
这些测试对象包括 GLM-5V-Turbo、Kimi K2.5 和内测版、Opus4.6、GPT5.4、Gemini3.1Pro。
我已经把这些网页全部放到 topai 上面,我把密钥隐藏掉了,所以在线版对话功能不可用。
具体可以看:
这个系列就告一个段落了,我接下来计划给它们一个更有挑战性的任务------复刻 Claude 桌面版。
这个技术栈就不太一样了,而且我要求后端全部由 GLM 替代,实现完整的对话管理。目的就是做到 Claude Desktop 的外壳,GLM 的内核。
这才叫高端的套壳!
另外,我还有一个计划。
让不同的模型帮我开发一个 tokens 盲盒,我后端会接入不同协议、不同平台的不同模型。然后它需要帮我统一管理这些资源,再提供 OpenAI 和 Anthropic 两个协议给用户使用。用户使用的时候随机分配模型,就像抽盲盒一样,抽到什么就是什么。
这里面应该是涉及到很多技术和业务上的东西了。
😄兼具中转站和B彩站的特性,这才叫实战!
目前测试的难点是,全球模型都在降智...收拢配额...! Opus前几天都疯狂说韩语!!!
具体什么时候出,得看时间安排。 我好像测试测太久了,需要实干去了!