GPT5.4克隆Claude官网,玩了一把“与众不同”!

我在发布 Opus4.6 碾压 xx 模型的时候,很多人都问 GPT5.4 的表现怎么样。

既然有人问,就会有人测!

这不测试就来了。

GPT5.4 的表现有点出乎意料,但是也在意料之中,非常符合它的性格特征。

下面我就来完整的说明一下,这次的测试用例,测试工具,测试过程和测试结果。

测试用例

这是多模态测试系列,主要是通过图片还原网页。

我提供了六张 Claude 官网的图片,每张图片都有不同的侧重点。

同时提供了一段提示词:

json 复制代码
参考 docs 下的所有图片制作网页,要求完美还原设计稿。
包括配色,图标,布局,字体,功能菜单等方面。

并且要使用 Anthropic 协议实现基础的聊天对话功能,
其他功能只需要完成 UI 展示和互动即可,无需实现具体功能!

调用的接口信息如下:

"baseURL": "https://open.bigmodel.cn/api/anthropic"
"apiKey": "xxxx"
"models": [
      "glm-5.1",
      "glm-5-turbo",
      "glm-5",
      "glm-4.7",
      "glm-4.5-air"
    ],
"selectedModel": "glm-5.1",

之前测了好几个模型,全部是一样的图片,一样的提示词。

测试工具

因为 GPT5.4 有自己的工具 Codex,所以肯定是选用 Codex 来进行开发了。

从图中可以看到,模型选用了 gpt-5.4 high fast。

这个和 Opus4.6 high 差不多等级,应该比较公平!

测试结果

有人说,喜欢先看结果。那我就先上结果吧!

这是GPT5.4做完后的整体结果。

我先不说有啥问题,我先说,这个UI的审美还是在线的,左边的菜单还原度也还可以。

大致看起来没有大毛病!

然后我来说问题了!

它的问题,就是有点"与众不同"。

第一个问题:静态页面崩的一塌糊涂

大量的错位!

但是,只要启动服务器,再打开网页就正常多了。

这是非常与众不同的一个点。

别人开发的页面基本上不会有这种问题,不管有没有启动 Web 服务,都不会影响布局!

第二个问题:套中套。

你们有没有发现,它把 Chrome 浏览器也还原出来了。

它不只是做了网页,还把外壳也给套上了。

GPT5.4 肯定觉得它牛得不行,把浏览器都给我还原出来了。

我甚至都能猜到 GPT5.4 的内心活动。

它肯定在想:

别的选手不会复现浏览器的部分,我能复现,我就比他们强了一个段位。

我真是个天才,那些小白用户肯定会大喊牛逼!

之前测了很多例子,没有一个模型是这么搞的。从我们的真实意图来看,我们其实是不希望它复现浏览器的,我们要的是它复现浏览器中的网页。

第三个问题:在doc下开发!

这又是一个与众不同的点。

正常的模型都知道文档是用来阅读,开发代码应该放在根目录下,或者单独的源代码目录中!

这个有点不应该吧,谁会把代码写在docs文档目录下面呢?

莫非也是降智降到脑残了?

三个与众不同的点说完,我们来聚焦页面效果。

这个页面整体看起来挺好,但细节问题不少:

它套壳了一个浏览器,但是底部边缘间距不够。

左下角的头像和下载图标位置全乱。

加号的位置太高了,应该往下移。

模型和语音输入图标太靠左了,应该往右移。

底部的快捷功能按钮没有边框。

还有一个问题,它的整个文字、输入框比例都是不对的。

这是原图的比例:

对话功能:

对话功能是正常,就是输入框偏左! 左上角的对话标题和右下角的分享按钮都有,但是效果和原稿不一致。

总的来说:GPT5.4 它有自己的想法,审美不错,但是细节全部微调了!

而我们的要求是高度还原配色、图标、布局、字体、功能菜单等。

开发过程!

因为这个功能比较简单,其实开发过程没有太多东西。

但是也可以看一看,感受一下GPT5.4的思考过程。

它是构建了一个任务列表的,这一点没毛病,非常稳健。

它开发完成,做了3项验证,也是非常好的。

接口调用已经测试过了,就基本上不会有什么问题。

当然它目前无法像Claude Code+Opus一样,直接打开浏览器,自己去检查页面效果的。

另外我还问了一下,布局混乱的问题:

它用祖传的"不是..而是.."语法解释了两个关键点。

虽然它说了那么多,但是我知道,布局相关的JS完全可以不依赖任何服务器。

别人也轻松做到了静态页面布局显示正常,这是一个不争的事实。

它说的再多,都无济于事。还不如直接承认"我考虑欠周"!

我说它"与众不同"只是给它面子,其实是,它这个几个点都没做好。

我现在已经比较少用GPT5.4了,页面版因为废话太多完全无法用。

Codex 版感觉刚出的时候很棒,但是现在感觉也有降智。

我主要受不了它常常不说人话,黑话一套一套的。

它并不是做的不够,它是做的太多!

我单纯不喜欢它的这种人格而已。

很少有一个模型,可以让我上升到人格层面😄!

另外,曾经的前端一哥 Gemini 我也测试了:

它复现网页整体来说还很牛逼的,布局上非常稳!

但是细节不够到位:

缺了很多东西,比如作家的"Claude"没了,语言的弹出菜单没了,左下角的对话标题和右上角的分享没了。

截至当前,大部分模型已经测试了。

这些测试对象包括 GLM-5V-Turbo、Kimi K2.5 和内测版Opus4.6、GPT5.4、Gemini3.1Pro。

我已经把这些网页全部放到 topai 上面,我把密钥隐藏掉了,所以在线版对话功能不可用。

具体可以看:

topai.tonyhub.xyz/copyclaude/...

这个系列就告一个段落了,我接下来计划给它们一个更有挑战性的任务------复刻 Claude 桌面版。

这个技术栈就不太一样了,而且我要求后端全部由 GLM 替代,实现完整的对话管理。目的就是做到 Claude Desktop 的外壳,GLM 的内核。

这才叫高端的套壳!

另外,我还有一个计划。

让不同的模型帮我开发一个 tokens 盲盒,我后端会接入不同协议、不同平台的不同模型。然后它需要帮我统一管理这些资源,再提供 OpenAI 和 Anthropic 两个协议给用户使用。用户使用的时候随机分配模型,就像抽盲盒一样,抽到什么就是什么。

这里面应该是涉及到很多技术和业务上的东西了。

😄兼具中转站和B彩站的特性,这才叫实战

目前测试的难点是,全球模型都在降智...收拢配额...! Opus前几天都疯狂说韩语!!!

具体什么时候出,得看时间安排。 我好像测试测太久了,需要实干去了!

相关推荐
abo1234564 小时前
Claude Code 核心架构分析与 Agent 公司借鉴路径
agent·vibecoding
lvyuanj5 小时前
claw-code 源码分析:Harness工程的核心设计
ai编程
码头码农5 小时前
Skills:把AI能力折叠成可复用的工具箱
ai编程
幺风6 小时前
Claude Code源码分析 - cli初始化及 Ink 渲染系统
ai编程
路飞说AI6 小时前
Claude Code Agent Teams指南
ai编程·claudecode·agentteam
与虾牵手7 小时前
OpenClaw 和 AiPy 怎么选?2026 功能实测对比 + 踩坑全记录
python·ai编程
KevinZhang135797 小时前
第 15 节:实现数据分析可视化
ai编程·vibecoding
星浩AI7 小时前
Claude Code 项目实战:多 Agent 流程编排,从原型到可运行 ChatBot
后端·claude·vibecoding
Lazy_zheng7 小时前
SDD 实战:用 Claude Code + OpenSpec,把 AI 编程变成“流水线”
前端·react.js·ai编程