Opus4.8 才是真的夯爆了！实测 9个例子表现出众！

论天下英雄，怎么能少得了 Opus4.8！ 别人是吹牛逼，这才是真牛逼！

国内模型太无趣了，基准都很好看，吹得也挺猛。但是我实在是无FK可说。

我们来看看国外的顶级模型吧！

Opus4.8是我天天用的，好像还没出过专门的测试文章。

今天就给大家看 9 个例子，同时对比一下经典的 Opus4.6。同时再拉一个最新的国产模型来做一个参考，具体名字我就不说了，怕有人受不了。我就叫它"3 号模型"吧，代号"Model 3"，禁止缩写。

所有测试我都已经做完，并已经上传：

全新的域名：

topai.jarvisuni.com/

因为涉及到前端视觉和交互设计，最好是使用电脑大屏在网页端查看，效果对比特别明显。

点击标题可以打开对比页面，点击下方具体的模型，可以打开单独的页面！

文章里面我就挑几个非常有代表性的例子！

然后，我说个简要说明：由于我本地网络环境问题，我是直接在 Claude.ai 的网页版中完成了这次的 9 个例子。

好了，Show Time！

1、赛博朋克版《清明上河图》

测试要求：

markdown 复制代码

请不要直接画图，而是编写一段 单个 HTML 文件 的代码，当我用浏览器打开它时，能看到一幅动态的、赛博朋克风格的《清明上河图》长卷。 

要求：

1. 画面需要自动从右向左缓缓滚动。
2. 必须包含至少 50 个动态元素：如闪烁的霓虹灯招牌、飞行的汽车、全息投影的广告、街头的机械义肢行人。
3. 鼠标悬停在任意店铺上时，要弹出一个赛博风格的信息卡片（如"老王义体维修店 - 好评率 98%"）。

关键技术点：

SVG/Canvas 绘图编程能力
CSS 动画逻辑
鼠标交互事件处理
审美设计与视觉呈现

Opus4.8 的测试结果：

交付说明：

markdown 复制代码

《赛博·清明上河图 · 汴京 2099》做好了------单个 HTML 文件，浏览器直接打开即可。

主要实现：

滚动与无缝循环

整幅长卷（5400px）自动从右向左匀速流动。我克隆了一份场景首尾拼接，所以是真正的无缝循环，永远不会"断片"。鼠标悬停到店铺上时**画卷会自动暂停**，方便你看清信息卡。

风格融合

没有简单堆霓虹，而是把原作的视觉语言逐一赛博化：传统**飞檐曲线屋顶**用 SVG 画成发光轮廓，竖排**霓虹招牌**（写法跟古代招牌一致）、随风摇摆的红**灯笼**、横跨汴河的**虹桥**（彩虹渐变光弧+悬浮画舫）、水面霓虹倒影。配色上特意用了玉青/朱红/鎏金这些传统色，再撞上青/品红的赛博光，远处还有水墨远山和孤月。

100+ 动态元素

（远超 50 个要求，右上角 HUD 会实时计数）：闪烁故障的招牌、飞行汽车拖着光尾穿梭、悬浮无人机、全息广告（醉仙楼/天龙集团/入梦馆...）、迈着机械步伐的义体行人、烤鸭店的蒸汽、义体维修店飞溅的火花、酸雨、扫描线、远处楼宇明灭的窗户。

悬停信息卡

18 家融合店铺

比如"老王义体维修店 --- 好评率 98% · 义肢锻造·神经接驳·当日可取"，悬停弹出斜切赛博卡片，含好评率进度条、信用/客流/营业状态，配色随店招同步变化。

放大窗口看效果最佳。

想调整的话，比如加快/放慢滚动速度、增减雨量、换店铺名字或主色调，告诉我就行。

然后放两个参考对象。

这是 Opus4.6 的结果：

Model 3 的结果：

看完后，我的感觉是 Opus4.8 更加具象化，而 Opus4.6 更加抽象化，一个身处其中的近景，一个是远远的远景。Model 3 只是一些杂乱的色块而已，毫无设计感可言，配色是非常糟糕的，线条也无比生硬，里面的人物也是空中原地踏步，飞行器也很"原生态"。

Opus4.8 整体来说还是非常优秀的，效果远超其他模型！

除了它之外也就 Gemini3.5Flash 比较能打，但是 G3.5 的问题是宏观很好，细节不行，出现了空中行走，空间逻辑有待提升。

Opus4.8 在很多细节上断代领先：

它的义肢人、两种飞行器、以及各种房子，各种元素已经画的像模像样了，形态和细节非常到位。

而且元素融合方面也是精雕细琢，按它自己的说法是这样的：

没有简单堆霓虹，而是把原作的视觉语言逐一赛博化：

传统飞檐曲线屋顶用 SVG 画成发光轮廓，

竖排霓虹招牌（写法跟古代招牌一致）、

随风摇摆的红灯笼、

横跨汴河的虹桥（彩虹渐变光弧+悬浮画舫）、水面霓虹倒影。

配色上特意用了玉青/朱红/鎏金这些传统色，

再撞上青/品红的赛博光，远处还有水墨远山和孤月。

屏幕上还专门制作了几个特殊的汉字，每个汉字其实都有对应的东西。

字	名字
醉	CYBER WINE 醉仙楼
仙	NANO MEDICINE 不老丹
龍	DRAGON CORP 天龍集团
夢	DREAM DIVE 入梦体验馆
錢	DATA BANK 通宝钱庄
武	MECH ARENA 机甲竞技
樂	HOLO OPERA 全息梨园

龙、梦、钱、乐，还专门用了繁体字！另外几个字，是简体字和繁体字一样的。所以其实它都是设计成了繁体字。

总的来说，视觉效果出众，元素精致，构思巧妙，细节拉满！

2、华丽设计的AI五子棋

测试要求：

diff 复制代码

用一个 HTML 文件实现一个人机五子棋，要求：

- 棋盘是 15×15 标准棋盘，有木纹质感
- AI 要足够聪明（至少能识破简单的活三、冲四，不能让人 3 步就赢）
- 落子时有动画效果（石子从上方落下，有弹跳回弹）
- 连成五子时有华丽的胜利特效（粒子烟花 + 连线高亮闪烁）
- 支持悔棋功能
- 有一个"AI思考中"的加载动画
- 整体 UI 要精致，不能是毛坯房风格

关键技术点：

AI 算法（minimax + alpha-beta 剪枝）
Canvas 棋盘渲染与木纹质感
落子动画（弹跳回弹物理效果）
粒子烟花特效
游戏逻辑完整性（胜负判断、悔棋）

测试结果：

接下来是参考选手的结果。

Opus4.6 的结果：

Model 3 的效果：

对比图都放在上面了，实际效果，应该非常清晰！这个东西不需要技术，只要有眼睛就能看得出来。

Opus4.8 的视觉设计夯爆了，Opus4.6 也不错。

Model 3 有点美国城乡结合部的审美了吧，还沉浸在初期 AI 网页泛滥的蓝紫配色中。右侧控制面板都蓝红黄配色，以及标题的黄色渐变，以及各种字体和边框的设计都比较普通，不过相比 Model2.5 好多了，至少它这次的棋盘和棋子形态是正常的。

下面我们来看一下它的算法：

AI（minimax + α-β 剪枝） ------ 三层决策：

先查自己能否直接成五（必下），再查对手是否有成五点（必堵），否则进入深度 4 的负极大值搜索，叶子节点用「5 格滑窗」静态评估。

我在 Node 里跑了对局模拟验证，它能完成自己的连五、挡掉对手的冲四、并且会主动堵活三防止你形成活四------也就是说三步内赢不了它。

候选着法只取棋子周围两格内并按启发分排序，所以最慢一手也在 150ms 内算完。

它已经在 Node 里面自己和自己玩过了，我也实测了一下，确实非常难缠，和之前的 Gemini3.5 给我的感觉类似，就是拦得很积极，然后它不知不觉就 4 颗了！我常常被它秒，和它下棋需要高度集中。

Opus4.6 其实也不弱的。但是我发现了它的算法漏洞，我只要按上面截图中的步骤下棋，必胜！

而 Model 3 基本上就是个"若质"。你什么都不用管，你就直接斜着放满 5 个子就可以了，它不会在 3 颗的时候拦你，只会到 4 颗才拦，你们说是不是脑子有问题？

3、3D太阳系模型

测试要求：

diff 复制代码

用一个 HTML 文件实现一个交互式 3D 太阳系模型（可用 Three.js 或纯 CSS 3D），
要求：

- 包含太阳 + 八大行星 + 月球，按真实比例缩放轨道（大小可艺术化处理）
- 每颗行星有真实的自转和公转，速度比例接近真实
- 太阳发光（glow 效果），行星有各自的颜色/纹理
- 土星要有光环！
- 鼠标可以拖拽旋转视角，滚轮缩放
- 点击任意行星弹出信息卡片（名称、直径、距太阳距离、有趣冷知识）
- 背景是星空粒子

关键技术点：

3D 渲染能力（Three.js 或 CSS 3D transforms）
天文物理知识（轨道比例、公转自转速度）
鼠标/触摸交互（拖拽旋转、缩放）
UI 信息卡片设计
粒子系统（星空背景）

Opus4.8 结果如下：

Opus4.6 的结果

Model 3 的结果：

首先，我们可以用肉眼感受一下视觉上的差距！！！

这个例子我测了很多模型之后，都感觉有点无趣了，好像大家都能做出来，大差不差的感觉。

但是直到 Opus4.8 和 Model 3 的出现，我终于觉得有点意思了。

Opus4.8 的细节再次夯爆了。每个球都带纹理贴图的感觉！

Opus4.6是半3D，有些视角的太阳是扁平的，其它感觉还是白模，没有加任何纹理，光照部分效果是有的。

Model 3 完全是扁平效果，而且星球脱轨运行，上面要求的技术关键点，几乎一个都没做好！

Opus4.8 的设计报告如下：

css 复制代码

天体组成：

太阳 + 八大行星 + 月球，全部使用程序化生成的 canvas 纹理（不依赖任何图片文件）------气态巨行星有水平条带、地球有海洋/陆地/云层、水星·火星·月球是布满陨石坑的岩石质感、太阳是翻腾的等离子体。

轨道比例：

按真实距离做了平方根式压缩，让内侧行星不至于挤在一起，同时让海王星也能留在画面内；行星次序和相对间距保持真实（木星→土星的大跨度等）。

速度比例接近真实：

公转速度 ∝ 1/公转周期，自转速度 ∝ 1/自转周期，都以地球为基准。因此水星每个地球年绕太阳约 4 圈、木星自转最快，而金星和天王星是逆向自转。（两组速度分别缩放------若严格保留真实的 365:1 自转/公转比，自转会快得像频闪;同时还加入了各行星的自转轴倾角，包括天王星约 98° 的"侧躺"姿态。）

太阳发光：

三层叠加混合（additive）的日冕光晕 sprite，带轻微的"呼吸"脉动；另有一盏点光源照亮各行星的向阳面。

土星光环：

使用真实的 RingGeometry，并对 UV 做了按半径方向的重映射，配上带卡西尼缝的冰环纹理。

交互：

拖拽旋转视角，滚轮 / 双指缩放，点击行星（或其标签）弹出信息卡片，并会平滑地聚焦跟随该行星移动；点"复位视角"可拉回全景。

信息卡片：

名称 / 直径 / 距太阳距离 / 公转·自转周期 / 类型 + 一条冷知识，每颗行星配各自的主题色，玻璃拟态风格。

星空粒子：

约 5,600 颗叠加混合的星点，分两层景深（大小与冷暖色调各有变化），外加几团淡淡的星云 sprite，并带缓慢的视差漂移。

额外功能：

时间流速滑块（0--5×）、暂停/播放、轨道线与标签的开关、完整的移动端响应式适配。

整体视觉是暗色"天文台"主题------Cinzel + Noto Serif SC + Jura 字体搭配，配以悬浮的玻璃质感控制面板。

这里要重点强调，它在轨道比例和速度真实度方面也做得非常出众！另外它说到了使用了 5600 颗星点，分两层景深，真的细节拉满，考核要求中的几个点都完美地完成了！

它还有一个点击星球的切换效果也特别赞：

它会从整个太阳系丝滑地聚焦到具体的行星🪐！

这个 UX 做得特别好，也是目前几十个模型中做得最好的！

如果说 Model 3 敢称自己是最强模型，那么 Opus4.8 真的就是宇宙无敌了，相对 Model 3 绝对是断代领先！

别对标，硬比，就是自取其辱！

4、无限流文字冒险游戏

测试要求：

markdown 复制代码

设计一个网页：请瞬间化身为一个复古文字冒险游戏引擎。用户输入"开始"，你需生成一个随机主题（如"火星殖民地生存"或"古代修仙"）。 

**要求：**

1. 每一步选择都要实时生成一张**ASCII艺术插图**（用字符拼成的画）来渲染场景氛围，不能重复。

2. 游戏必须包含隐藏的"蝴蝶效应"逻辑，如果用户在第 3 步选择了"捡起石头"，在第 10 步遇到怪兽时必须体现出这个选择的后果。

3. 若用户输入无理取闹的指令（如"我一拳打爆地球"），你需要用幽默的方式拒绝并引导回剧情，不能报错。

关键技术点：

即时状态管理（长对话上下文维持）
叙事创意与逻辑连贯性
ASCII 艺术生成能力
Agent 异常输入处理能力

结果如下：

这一部分，我就不发对比图了。因为这个问题的本身不在视觉效果，而是"无限流"和"蝴蝶效应"。其实单个页面要做到这一点几乎是不可能的。大部分单页面的游戏少的几轮就结束了，很少能玩到 10 轮以上。

但是 Opus4.8 不一样！

它真的做到了无限流，因为它自动接入了自家的 AI 模型，因为在它的沙盒里自动注入了模型 API，所以我什么都不用管，就可以开始玩真"无限流"游戏了。

它是这么说的：

做好了------一台真·实时驱动 的复古文字冒险引擎，不是预写剧本的假分支。它在页面内调用 Claude(claude-sonnet-4) 做游戏引擎，所以 "随机/不重复/即兴" 是真的随机即兴。

它还特别强调了是如何实现技术指标的：

① 每步现画、不重复的 ASCII 插图 ------ 引擎被约束成只返回 JSON，其中 ascii 字段每幕重新生成，且系统提示里硬性规定"绝不与之前任何一幕重复"，并限定 6--13 行、≤44 字宽以保证不被截断。渲染在带磷光绿辉光的 <pre> 里。

② 隐藏的蝴蝶效应 ------ 关键在于 flags（引擎记忆）与 thread（命运丝线）两套状态。玩家任何有后果的动作都被写进 flags 长期保存；每次请求我都把 step 和完整 flags 注入上下文，引擎在后续（尤其战斗/遇怪）必须显式兑现。你说的"第 3 步捡石头→第 10 步遇怪"就是内置示例：右侧"命运丝线"面板会把这些伏笔实时显形出来，让蝴蝶效应肉眼可见。

③ 无理取闹的幽默驳回 ------ 引擎识别出戏/作弊指令（如"我一拳打爆地球"）时返回 type:"reject"，以吐槽口吻拒绝并拉回剧情，step 与 flags 不变、选项原样保留 ，绝不报错、绝不破坏沉浸感。前端把它渲染成橙红色的 [引擎吐槽] 行。

④ 四个技术点的落点 ------ 状态管理：前端维护 apiHistory 全量历史 + flags/step/threads，每轮回传保证长上下文连贯；叙事连贯性靠系统提示 + 状态注入；ASCII 生成靠受约束的 JSON 输出；异常输入处理靠 reject 分支 + 健壮的 JSON 解析（剥离代码块、容错括号、失败时显示"信号干扰"并可重试）。

体验上还加了开机自检动画、打字机叙事（点字可快进）、CRT 扫描线/暗角/微闪、A/B/C 选项按钮 + 自由输入框。直接点绿色按钮或输入「开始」即可开局。

我感觉它的网页版似乎也嵌入了轻量化的智能体：

从执行记录来看，它并不是一次完成的，应该是分多个阶段来处理的。而且 Tokens 消耗起来也特别猛！

我这九个题目，如果要认真做，其实都是非常消耗"脑力"的，很多比较弱的模型，基本上就是敷衍了事，细节做的是很差的。

而一些聪明一点的模型，往往需要想很久很久。

我在本地 CC 测试的时候，卡死过 GLM5.1，然后 Claude 也需要等很久，甚至会出现 API 错误而中断，很神奇。

我最近常常在推上刷到说 Opus4.8 不行，说 Anthropic 不行了，换 Codex 用 GPT5.5 去了。我不确定它们说的是用不上，还是真的技术不行。

从我的体验来说，Opus 系列是非常硬核的！

每一代都在变强，实战能力一直都是天花板，尤其是在探索性开发上、需求理解上、页面布局构思上，它总是能给你最佳路径，绝对不做过度设计。

如果你是一个"剑客"，这就是一把"绝世好剑"，不是那些破铜烂铁能比的！

我用上它之后的感觉是："我有一剑，可搬山、倒海、降妖、镇魔、敕神、摘星、断江、摧城、开天！ " 主打一个强大、稳定、全能！

玩这些模型多爽啊~~

最后，点赞不收钱，可以多点点！