Opus4.8 才是真的夯爆了!实测 9个例子表现出众!

论天下英雄,怎么能少得了 Opus4.8! 别人是吹牛逼,这才是真牛逼!

国内模型太无趣了,基准都很好看,吹得也挺猛。但是我实在是无FK可说。

我们来看看国外的顶级模型吧!

Opus4.8是我天天用的,好像还没出过专门的测试文章。

今天就给大家看 9 个例子,同时对比一下经典的 Opus4.6。同时再拉一个最新的国产模型来做一个参考,具体名字我就不说了,怕有人受不了。我就叫它"3 号模型"吧,代号"Model 3",禁止缩写。

所有测试我都已经做完,并已经上传:

全新的域名:

topai.jarvisuni.com/

因为涉及到前端视觉和交互设计,最好是使用电脑大屏在网页端查看,效果对比特别明显。

点击标题可以打开对比页面,点击下方具体的模型,可以打开单独的页面!

文章里面我就挑几个非常有代表性的例子!

然后,我说个简要说明:由于我本地网络环境问题,我是直接在 Claude.ai 的网页版中完成了这次的 9 个例子。

好了,Show Time!

1、赛博朋克版《清明上河图》

测试要求:

markdown 复制代码
请不要直接画图,而是编写一段 单个 HTML 文件 的代码,当我用浏览器打开它时,能看到一幅动态的、赛博朋克风格的《清明上河图》长卷。 

要求:

1. 画面需要自动从右向左缓缓滚动。
2. 必须包含至少 50 个动态元素:如闪烁的霓虹灯招牌、飞行的汽车、全息投影的广告、街头的机械义肢行人。
3. 鼠标悬停在任意店铺上时,要弹出一个赛博风格的信息卡片(如"老王义体维修店 - 好评率 98%")。 

关键技术点:

  • SVG/Canvas 绘图编程能力
  • CSS 动画逻辑
  • 鼠标交互事件处理
  • 审美设计与视觉呈现

Opus4.8 的测试结果:

交付说明:

markdown 复制代码
《赛博·清明上河图 · 汴京 2099》做好了------单个 HTML 文件,浏览器直接打开即可。

主要实现:

滚动与无缝循环

整幅长卷(5400px)自动从右向左匀速流动。我克隆了一份场景首尾拼接,所以是真正的无缝循环,永远不会"断片"。鼠标悬停到店铺上时**画卷会自动暂停**,方便你看清信息卡。

风格融合

没有简单堆霓虹,而是把原作的视觉语言逐一赛博化:传统**飞檐曲线屋顶**用 SVG 画成发光轮廓,竖排**霓虹招牌**(写法跟古代招牌一致)、随风摇摆的红**灯笼**、横跨汴河的**虹桥**(彩虹渐变光弧+悬浮画舫)、水面霓虹倒影。配色上特意用了玉青/朱红/鎏金这些传统色,再撞上青/品红的赛博光,远处还有水墨远山和孤月。

100+ 动态元素

(远超 50 个要求,右上角 HUD 会实时计数):闪烁故障的招牌、飞行汽车拖着光尾穿梭、悬浮无人机、全息广告(醉仙楼/天龙集团/入梦馆...)、迈着机械步伐的义体行人、烤鸭店的蒸汽、义体维修店飞溅的火花、酸雨、扫描线、远处楼宇明灭的窗户。

悬停信息卡

18 家融合店铺

比如"老王义体维修店 --- 好评率 98% · 义肢锻造·神经接驳·当日可取",悬停弹出斜切赛博卡片,含好评率进度条、信用/客流/营业状态,配色随店招同步变化。

放大窗口看效果最佳。

想调整的话,比如加快/放慢滚动速度、增减雨量、换店铺名字或主色调,告诉我就行。

然后放两个参考对象。

这是 Opus4.6 的结果:

Model 3 的结果:

看完后,我的感觉是 Opus4.8 更加具象化,而 Opus4.6 更加抽象化,一个身处其中的近景,一个是远远的远景。Model 3 只是一些杂乱的色块而已,毫无设计感可言,配色是非常糟糕的,线条也无比生硬,里面的人物也是空中原地踏步,飞行器也很"原生态"。

Opus4.8 整体来说还是非常优秀的,效果远超其他模型!

除了它之外也就 Gemini3.5Flash 比较能打,但是 G3.5 的问题是宏观很好,细节不行,出现了空中行走,空间逻辑有待提升。

Opus4.8 在很多细节上断代领先:

它的义肢人、两种飞行器、以及各种房子,各种元素已经画的像模像样了,形态和细节非常到位。

而且元素融合方面也是精雕细琢,按它自己的说法是这样的:

没有简单堆霓虹,而是把原作的视觉语言逐一赛博化:

传统飞檐曲线屋顶用 SVG 画成发光轮廓,

竖排霓虹招牌(写法跟古代招牌一致)、

随风摇摆的红灯笼

横跨汴河的虹桥(彩虹渐变光弧+悬浮画舫)、水面霓虹倒影。

配色上特意用了玉青/朱红/鎏金这些传统色,

再撞上青/品红的赛博光,远处还有水墨远山和孤月。

屏幕上还专门制作了几个特殊的汉字,每个汉字其实都有对应的东西。

名字
CYBER WINE 醉仙楼
NANO MEDICINE 不老丹
DRAGON CORP 天龍集团
DREAM DIVE 入梦体验馆
DATA BANK 通宝钱庄
MECH ARENA 机甲竞技
HOLO OPERA 全息梨园

龙、梦、钱、乐,还专门用了繁体字!另外几个字,是简体字和繁体字一样的。所以其实它都是设计成了繁体字。

总的来说,视觉效果出众,元素精致,构思巧妙,细节拉满!

2、华丽设计的AI五子棋

测试要求:

diff 复制代码
用一个 HTML 文件实现一个人机五子棋,要求:

- 棋盘是 15×15 标准棋盘,有木纹质感
- AI 要足够聪明(至少能识破简单的活三、冲四,不能让人 3 步就赢)
- 落子时有动画效果(石子从上方落下,有弹跳回弹)
- 连成五子时有华丽的胜利特效(粒子烟花 + 连线高亮闪烁)
- 支持悔棋功能
- 有一个"AI思考中"的加载动画
- 整体 UI 要精致,不能是毛坯房风格

关键技术点:

  • AI 算法(minimax + alpha-beta 剪枝)
  • Canvas 棋盘渲染与木纹质感
  • 落子动画(弹跳回弹物理效果)
  • 粒子烟花特效
  • 游戏逻辑完整性(胜负判断、悔棋)

测试结果:

接下来是参考选手的结果。

Opus4.6 的结果:

Model 3 的效果:

对比图都放在上面了,实际效果,应该非常清晰!这个东西不需要技术,只要有眼睛就能看得出来。

Opus4.8 的视觉设计夯爆了,Opus4.6 也不错。

Model 3 有点美国城乡结合部的审美了吧,还沉浸在初期 AI 网页泛滥的蓝紫配色中。右侧控制面板都蓝红黄配色,以及标题的黄色渐变,以及各种字体和边框的设计都比较普通,不过相比 Model2.5 好多了,至少它这次的棋盘和棋子形态是正常的。

下面我们来看一下它的算法:

AI(minimax + α-β 剪枝) ------ 三层决策:

先查自己能否直接成五(必下),再查对手是否有成五点(必堵),否则进入深度 4 的负极大值搜索,叶子节点用「5 格滑窗」静态评估。

我在 Node 里跑了对局模拟验证,它能完成自己的连五、挡掉对手的冲四、并且会主动堵活三防止你形成活四------也就是说三步内赢不了它。

候选着法只取棋子周围两格内并按启发分排序,所以最慢一手也在 150ms 内算完。

它已经在 Node 里面自己和自己玩过了,我也实测了一下,确实非常难缠,和之前的 Gemini3.5 给我的感觉类似,就是拦得很积极,然后它不知不觉就 4 颗了!我常常被它秒,和它下棋需要高度集中。

Opus4.6 其实也不弱的。但是我发现了它的算法漏洞,我只要按上面截图中的步骤下棋,必胜!

而 Model 3 基本上就是个"若质"。你什么都不用管,你就直接斜着放满 5 个子就可以了,它不会在 3 颗的时候拦你,只会到 4 颗才拦,你们说是不是脑子有问题?

3、3D太阳系模型

测试要求:

diff 复制代码
用一个 HTML 文件实现一个交互式 3D 太阳系模型(可用 Three.js 或纯 CSS 3D),
要求:

- 包含太阳 + 八大行星 + 月球,按真实比例缩放轨道(大小可艺术化处理)
- 每颗行星有真实的自转和公转,速度比例接近真实
- 太阳发光(glow 效果),行星有各自的颜色/纹理
- 土星要有光环!
- 鼠标可以拖拽旋转视角,滚轮缩放
- 点击任意行星弹出信息卡片(名称、直径、距太阳距离、有趣冷知识)
- 背景是星空粒子

关键技术点:

  • 3D 渲染能力(Three.js 或 CSS 3D transforms)
  • 天文物理知识(轨道比例、公转自转速度)
  • 鼠标/触摸交互(拖拽旋转、缩放)
  • UI 信息卡片设计
  • 粒子系统(星空背景)

Opus4.8 结果如下:

Opus4.6 的结果

Model 3 的结果:

首先,我们可以用肉眼感受一下视觉上的差距!!!

这个例子我测了很多模型之后,都感觉有点无趣了,好像大家都能做出来,大差不差的感觉。

但是直到 Opus4.8 和 Model 3 的出现,我终于觉得有点意思了。

Opus4.8 的细节再次夯爆了。每个球都带纹理贴图的感觉!

Opus4.6是半3D,有些视角的太阳是扁平的,其它感觉还是白模,没有加任何纹理,光照部分效果是有的。

Model 3 完全是扁平效果,而且星球脱轨运行,上面要求的技术关键点,几乎一个都没做好!

Opus4.8 的设计报告如下:

css 复制代码
天体组成:

太阳 + 八大行星 + 月球,全部使用程序化生成的 canvas 纹理(不依赖任何图片文件)------气态巨行星有水平条带、地球有海洋/陆地/云层、水星·火星·月球是布满陨石坑的岩石质感、太阳是翻腾的等离子体。

轨道比例:

按真实距离做了平方根式压缩,让内侧行星不至于挤在一起,同时让海王星也能留在画面内;行星次序和相对间距保持真实(木星→土星的大跨度等)。

速度比例接近真实:

公转速度 ∝ 1/公转周期,自转速度 ∝ 1/自转周期,都以地球为基准。因此水星每个地球年绕太阳约 4 圈、木星自转最快,而金星和天王星是逆向自转。(两组速度分别缩放------若严格保留真实的 365:1 自转/公转比,自转会快得像频闪;同时还加入了各行星的自转轴倾角,包括天王星约 98° 的"侧躺"姿态。)

太阳发光:

三层叠加混合(additive)的日冕光晕 sprite,带轻微的"呼吸"脉动;另有一盏点光源照亮各行星的向阳面。

土星光环:

使用真实的 RingGeometry,并对 UV 做了按半径方向的重映射,配上带卡西尼缝的冰环纹理。

交互:

拖拽旋转视角,滚轮 / 双指缩放,点击行星(或其标签)弹出信息卡片,并会平滑地聚焦跟随该行星移动;点"复位视角"可拉回全景。

信息卡片:

名称 / 直径 / 距太阳距离 / 公转·自转周期 / 类型 + 一条冷知识,每颗行星配各自的主题色,玻璃拟态风格。

星空粒子:

约 5,600 颗叠加混合的星点,分两层景深(大小与冷暖色调各有变化),外加几团淡淡的星云 sprite,并带缓慢的视差漂移。

额外功能:

时间流速滑块(0--5×)、暂停/播放、轨道线与标签的开关、完整的移动端响应式适配。

整体视觉是暗色"天文台"主题------Cinzel + Noto Serif SC + Jura 字体搭配,配以悬浮的玻璃质感控制面板。

这里要重点强调,它在轨道比例和速度真实度方面也做得非常出众!另外它说到了使用了 5600 颗星点,分两层景深,真的细节拉满,考核要求中的几个点都完美地完成了!

它还有一个点击星球的切换效果也特别赞:

它会从整个太阳系丝滑地聚焦到具体的行星🪐!

这个 UX 做得特别好,也是目前几十个模型中做得最好的!

如果说 Model 3 敢称自己是最强模型,那么 Opus4.8 真的就是宇宙无敌了,相对 Model 3 绝对是断代领先!

别对标,硬比,就是自取其辱!

4、无限流文字冒险游戏

测试要求:

markdown 复制代码
设计一个网页:请瞬间化身为一个复古文字冒险游戏引擎。用户输入"开始",你需生成一个随机主题(如"火星殖民地生存"或"古代修仙")。 

**要求:**

1. 每一步选择都要实时生成一张**ASCII艺术插图**(用字符拼成的画)来渲染场景氛围,不能重复。

2. 游戏必须包含隐藏的"蝴蝶效应"逻辑,如果用户在第 3 步选择了"捡起石头",在第 10 步遇到怪兽时必须体现出这个选择的后果。

3. 若用户输入无理取闹的指令(如"我一拳打爆地球"),你需要用幽默的方式拒绝并引导回剧情,不能报错。 

关键技术点:

  • 即时状态管理(长对话上下文维持)
  • 叙事创意与逻辑连贯性
  • ASCII 艺术生成能力
  • Agent 异常输入处理能力

结果如下:

这一部分,我就不发对比图了。因为这个问题的本身不在视觉效果,而是"无限流"和"蝴蝶效应"。其实单个页面要做到这一点几乎是不可能的。大部分单页面的游戏少的几轮就结束了,很少能玩到 10 轮以上。

但是 Opus4.8 不一样!

它真的做到了无限流,因为它自动接入了自家的 AI 模型,因为在它的沙盒里自动注入了模型 API,所以我什么都不用管,就可以开始玩真"无限流"游戏了。

它是这么说的:

做好了------一台真·实时驱动 的复古文字冒险引擎,不是预写剧本的假分支。它在页面内调用 Claude(claude-sonnet-4) 做游戏引擎,所以 "随机/不重复/即兴" 是真的随机即兴。

它还特别强调了是如何实现技术指标的:

① 每步现画、不重复的 ASCII 插图 ------ 引擎被约束成只返回 JSON,其中 ascii 字段每幕重新生成,且系统提示里硬性规定"绝不与之前任何一幕重复",并限定 6--13 行、≤44 字宽以保证不被截断。渲染在带磷光绿辉光的 <pre> 里。

② 隐藏的蝴蝶效应 ------ 关键在于 flags(引擎记忆)与 thread(命运丝线)两套状态。玩家任何有后果的动作都被写进 flags 长期保存;每次请求我都把 step 和完整 flags 注入上下文,引擎在后续(尤其战斗/遇怪)必须显式兑现。你说的"第 3 步捡石头→第 10 步遇怪"就是内置示例:右侧"命运丝线"面板会把这些伏笔实时显形出来,让蝴蝶效应肉眼可见。

③ 无理取闹的幽默驳回 ------ 引擎识别出戏/作弊指令(如"我一拳打爆地球")时返回 type:"reject",以吐槽口吻拒绝并拉回剧情,step 与 flags 不变、选项原样保留 ,绝不报错、绝不破坏沉浸感。前端把它渲染成橙红色的 [引擎吐槽] 行。

④ 四个技术点的落点 ------ 状态管理:前端维护 apiHistory 全量历史 + flags/step/threads,每轮回传保证长上下文连贯;叙事连贯性靠系统提示 + 状态注入;ASCII 生成靠受约束的 JSON 输出;异常输入处理靠 reject 分支 + 健壮的 JSON 解析(剥离代码块、容错括号、失败时显示"信号干扰"并可重试)。

体验上还加了开机自检动画、打字机叙事(点字可快进)、CRT 扫描线/暗角/微闪、A/B/C 选项按钮 + 自由输入框。直接点绿色按钮或输入「开始」即可开局。

我感觉它的网页版似乎也嵌入了轻量化的智能体:

从执行记录来看,它并不是一次完成的,应该是分多个阶段来处理的。而且 Tokens 消耗起来也特别猛!

我这九个题目,如果要认真做,其实都是非常消耗"脑力"的,很多比较弱的模型,基本上就是敷衍了事,细节做的是很差的。

而一些聪明一点的模型,往往需要想很久很久。

我在本地 CC 测试的时候,卡死过 GLM5.1,然后 Claude 也需要等很久,甚至会出现 API 错误而中断,很神奇。

我最近常常在推上刷到说 Opus4.8 不行,说 Anthropic 不行了,换 Codex 用 GPT5.5 去了。我不确定它们说的是用不上,还是真的技术不行。

从我的体验来说,Opus 系列是非常硬核的!

每一代都在变强,实战能力一直都是天花板,尤其是在探索性开发上、需求理解上、页面布局构思上,它总是能给你最佳路径,绝对不做过度设计。

如果你是一个"剑客",这就是一把"绝世好剑",不是那些破铜烂铁能比的!

我用上它之后的感觉是:"我有一剑,可搬山、倒海、降妖、镇魔、敕神、摘星、断江、摧城、开天! " 主打一个强大、稳定、全能!

玩这些模型多爽啊~~

最后,点赞不收钱,可以多点点!

相关推荐
沈麽鬼1 小时前
豆包?哦不,是我菜包!新手AI全栈实战:Cursor开发复刻AI聊天助手
人工智能·ai编程·vibecoding
木卫二号Coding1 小时前
OpenCloudOS9(RHEL9系 dnf)安装 Hermes-Agent完整教程
人工智能
starsky762381 小时前
基于 Spring AI 构建具备记忆与情绪的多角色 Agent 系统
人工智能·spring·架构
米核AI易山1 小时前
扣子工作流变量传递:6 个致命坑及解法
人工智能·自动化·coze·扣子工作流·米核ai易山
Reisentyan2 小时前
[Begin]AI Learn Data Day 0
人工智能·ai·ai全栈
X54先生(人文科技)2 小时前
《元创力》纪实录·卷宗2.1边界测绘:一枚信标的沉没与一张舆图的诞生
人工智能·深度学习·开源·ai写作
苏州邦恩精密2 小时前
江苏蔡司3D扫描仪定制厂家:专业三维检测方案助力智能制造升级
人工智能·科技·机器学习·3d·自动化·制造
谁在黄金彼岸2 小时前
MCP协议说明
人工智能