Sonnet 4.6 vs Opus 4.6

模型发布速度如此之快，以至于很难区分什么是真正的进步与仅仅是增量收益。

随着 Sonnet 4.6 的发布，我决定进行一些正面测试，将其与 Opus 4.6 进行比较。

AI 实验室发布的基准测试正变得越来越不可靠，所以我运行了一些简单的测试提示，在 Converge 中。

1、测试

我的第一个提示是构建塔防游戏。这主要是迫使模型同时处理状态、UI、渲染和游戏逻辑的前端类型任务。

这是我使用的提示：

构建一个完整的塔防游戏，具有固定路径，敌人在波次中生成，每次击杀赚钱，敌人在到达终点时失去生命。包括至少 3 种塔类型（不同范围/伤害/攻击速度）和升级，以及简单的 UI 来放置/销售/升级塔并开始下一波；保持代码整洁和模块化，并交付一个可玩的、平衡的 MVP。包括基本打磨：暂停/重新开始 + 屏幕统计（波/生命/金钱）。

2、评分标准

我将提示分解为检查清单，使其不仅仅是"氛围"：

立即运行（没有缺失部分，一次性完成）
固定路径 + 敌人在波次中生成
每次击杀金钱 + 泄漏生命减少
3 种塔类型（范围/伤害/速度）
升级工作
UI：放置/销售/升级塔
开始下一波控制
基本打磨：暂停/重新开始 + 屏幕统计（波/生命/金钱）
感觉像可交付的 MVP（而不是损坏的演示）

3、结果

Opus 4.6

总体而言，Opus 4.6 做得相当不错。

Opus 的塔防 UI突出的地方：

坚实的基线 UI（不华丽，但功能正常）
核心循环工作：波、塔、击杀 → 金钱
升级 + 基本 UX 触点都在那里（甚至还有一些热键）

评分卡

立即运行（没有缺失部分，一次性完成） --- ✅
固定路径 + 敌人在波次中生成 --- ✅
每次击杀金钱 + 泄漏生命减少 --- ✅
3 种塔类型（范围/伤害/速度） --- ✅
升级工作 --- ✅
UI：放置/销售/升级塔 --- ✅
开始下一波控制 --- ✅
基本打磨：暂停/重新开始 + 屏幕统计（波/生命/金钱） --- ✅
感觉像可交付的 MVP --- ✅
评分：9/9

Sonnet 4.5

我决定也测试 Sonnet 4.5 作为额外的基线，以更好地展示 Sonnet 家族从 4.5->4.6 的进步。我对生成质量的糟糕程度感到震惊。Sonnet 4.5 显然落后了。

我看到的：

UI 太基本了
动画和整体"打磨"滞后
塔和敌人即使在你可以看到敌人计数在减少时也不总是显示在 UI 上

评分卡

立即运行（没有缺失部分，一次性完成） --- ❌
固定路径 + 敌人在波次中生成 --- ✅
每次击杀金钱 + 泄漏生命减少 --- ✅
3 种塔类型（范围/伤害/速度） --- ✅
升级工作 --- ✅
UI：放置/销售/升级塔 --- ❌
开始下一波控制 --- ✅
基本打磨：暂停/重新开始 + 屏幕统计（波/生命/金钱） --- ✅
感觉像可交付的 MVP --- ✅
评分：6/9

Sonnet 4.6

Sonnet 4.6 是事情变得有趣的地方！我最喜欢的生成，但不是大幅度领先。

UI 感觉更好，更接近典型的游戏
游戏玩法和运动感觉更流畅、更连贯
总体上它干净地达到了检查清单
在表现更好的同时，Sonnet 的价格也比 Opus 便宜近 50%。

评分卡

立即运行（没有缺失部分，一次性完成） --- ✅
固定路径 + 敌人在波次中生成 --- ✅
每次击杀金钱 + 泄漏生命减少 --- ✅
3 种塔类型（范围/伤害/速度） --- ✅
升级工作 --- ✅
UI：放置/销售/升级塔 --- ✅
开始下一波控制 --- ✅
基本打磨：暂停/重新开始 + 屏幕统计（波/生命/金钱） --- ✅
感觉像可交付的 MVP --- ✅
评分：9/9

4、附加测试：构建 ChatGPT 克隆

由于 Sonnet 4.6 相当容易地处理了塔防游戏，我想通过让它重现 ChatGPT 来进一步推动它。同样，这是在 Converge 中完成的。

这里的提示：

创建一个功能齐全的 AI 聊天应用程序，复制 ChatGPT，具有高级功能，包括：
核心功能：
具有上下文感知和多轮对话的自然语言交流
支持带有丰富格式（粗体、斜体、代码块）的文本输入和输出
实时输入指示器和消息传递状态
用户身份验证和个人资料管理
带有搜索和导出选项的对话历史
可定制的用户设置（主题、字体大小、通知偏好）
高级功能：
处理多媒体输入（图像、音频）并生成描述性回复
允许用户引用过去对话的上下文记忆
基于用户交互自适应学习的个性化响应
用户界面设计：
干净、现代和极简主义布局，使用令人愉悦的调色板（例如，深海军蓝 #1A1F36、柔和蓝绿色 #4FB6AC、浅灰色 #F5F7FA 和白色）
具有清晰层次结构和充足留白的可读无衬线排版
为桌面、平板和移动设备优化的响应式设计
为消息转换和交互元素的流畅动画
具有键盘导航、屏幕阅读器支持和足够对比度的无障碍设计
交互和反馈：
为用户操作（发送、接收、错误）提供清晰的视觉反馈
为增强通信流程的输入指示器和已读回执
用于更快交互的快速回复建议和自动完成
确保应用程序提供直观、可靠且吸引人的对话 AI 体验，可在设备之间扩展并适应多样化的用户需求。

第一代中有很多东西起作用，缺少一些功能部分。

一件非常令人印象深刻的事情是它完美地处理了跨线程搜索。下面你会看到我提到我是湖人队的粉丝。

然后我开始了一个新的聊天，问它我喜欢哪个队，它记住了！在幕后，这一切都由 Converge 中的代理组件提供支持

将提示转换为检查清单：

多轮内存（每线程 + 跨线程上下文） --- ✅
身份验证 + 用户账户（OAuth / SSO 就绪） --- ✅
持久对话历史（搜索 + 导出） --- ✅
流式响应与交付状态 --- ✅
跨线程搜索 --- ❌
富文本 + 代码渲染 --- ❌（有点）
多模态输入（图像 + 音频上传） --- ✅
图像理解 --- ✅
个性化层（自适应记忆）* 文件上传处理 --- ✅
响应式、无障碍 UI（桌面 → 移动） --- ✅
用户设置（主题、通知、偏好） --- ❌

5、结束语

Sonnet 4.6 是一个很棒的模型。我整周都在测试它，它和 Opus 4.6 一样好，甚至可能更好，同时也更便宜。

AI 世界的变化速度是无情的！

原文链接：Sonnet 4.6 vs Opus 4.6 - 汇智网