Sonnet 4.6 vs Opus 4.6

模型发布速度如此之快,以至于很难区分什么是真正的进步与仅仅是增量收益。

随着 Sonnet 4.6 的发布,我决定进行一些正面测试,将其与 Opus 4.6 进行比较。

AI 实验室发布的基准测试正变得越来越不可靠,所以我运行了一些简单的测试提示,在 Converge 中。

1、测试

我的第一个提示是构建塔防游戏。这主要是迫使模型同时处理状态、UI、渲染和游戏逻辑的前端类型任务。

这是我使用的提示:

构建一个完整的塔防游戏,具有固定路径,敌人在波次中生成,每次击杀赚钱,敌人在到达终点时失去生命。包括至少 3 种塔类型(不同范围/伤害/攻击速度)和升级,以及简单的 UI 来放置/销售/升级塔并开始下一波;保持代码整洁和模块化,并交付一个可玩的、平衡的 MVP。包括基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱)。

2、评分标准

我将提示分解为检查清单,使其不仅仅是"氛围":

  • 立即运行(没有缺失部分,一次性完成)
  • 固定路径 + 敌人在波次中生成
  • 每次击杀金钱 + 泄漏生命减少
  • 3 种塔类型(范围/伤害/速度)
  • 升级工作
  • UI:放置/销售/升级塔
  • 开始下一波控制
  • 基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱)
  • 感觉像可交付的 MVP(而不是损坏的演示)

3、结果

Opus 4.6

总体而言,Opus 4.6 做得相当不错。

Opus 的塔防 UI突出的地方:

  • 坚实的基线 UI(不华丽,但功能正常)
  • 核心循环工作:波、塔、击杀 → 金钱
  • 升级 + 基本 UX 触点都在那里(甚至还有一些热键)
评分卡
  • 立即运行(没有缺失部分,一次性完成) --- ✅
  • 固定路径 + 敌人在波次中生成 --- ✅
  • 每次击杀金钱 + 泄漏生命减少 --- ✅
  • 3 种塔类型(范围/伤害/速度) --- ✅
  • 升级工作 --- ✅
  • UI:放置/销售/升级塔 --- ✅
  • 开始下一波控制 --- ✅
  • 基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱) --- ✅
  • 感觉像可交付的 MVP --- ✅
    评分:9/9
Sonnet 4.5

我决定也测试 Sonnet 4.5 作为额外的基线,以更好地展示 Sonnet 家族从 4.5->4.6 的进步。我对生成质量的糟糕程度感到震惊。Sonnet 4.5 显然落后了。

我看到的:

  • UI 太基本了
  • 动画和整体"打磨"滞后
  • 塔和敌人即使在你可以看到敌人计数在减少时也不总是显示在 UI 上
评分卡
  • 立即运行(没有缺失部分,一次性完成) --- ❌
  • 固定路径 + 敌人在波次中生成 --- ✅
  • 每次击杀金钱 + 泄漏生命减少 --- ✅
  • 3 种塔类型(范围/伤害/速度) --- ✅
  • 升级工作 --- ✅
  • UI:放置/销售/升级塔 --- ❌
  • 开始下一波控制 --- ✅
  • 基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱) --- ✅
  • 感觉像可交付的 MVP --- ✅
    评分:6/9
Sonnet 4.6

Sonnet 4.6 是事情变得有趣的地方!我最喜欢的生成,但不是大幅度领先。

  • UI 感觉更好,更接近典型的游戏
  • 游戏玩法和运动感觉更流畅、更连贯
  • 总体上它干净地达到了检查清单
    在表现更好的同时,Sonnet 的价格也比 Opus 便宜近 50%。
评分卡
  • 立即运行(没有缺失部分,一次性完成) --- ✅
  • 固定路径 + 敌人在波次中生成 --- ✅
  • 每次击杀金钱 + 泄漏生命减少 --- ✅
  • 3 种塔类型(范围/伤害/速度) --- ✅
  • 升级工作 --- ✅
  • UI:放置/销售/升级塔 --- ✅
  • 开始下一波控制 --- ✅
  • 基本打磨:暂停/重新开始 + 屏幕统计(波/生命/金钱) --- ✅
  • 感觉像可交付的 MVP --- ✅
    评分:9/9

4、附加测试:构建 ChatGPT 克隆

由于 Sonnet 4.6 相当容易地处理了塔防游戏,我想通过让它重现 ChatGPT 来进一步推动它。同样,这是在 Converge 中完成的。

这里的提示:

创建一个功能齐全的 AI 聊天应用程序,复制 ChatGPT,具有高级功能,包括:
核心功能:
具有上下文感知和多轮对话的自然语言交流
支持带有丰富格式(粗体、斜体、代码块)的文本输入和输出
实时输入指示器和消息传递状态
用户身份验证和个人资料管理
带有搜索和导出选项的对话历史
可定制的用户设置(主题、字体大小、通知偏好)
高级功能:
处理多媒体输入(图像、音频)并生成描述性回复
允许用户引用过去对话的上下文记忆
基于用户交互自适应学习的个性化响应
用户界面设计:
干净、现代和极简主义布局,使用令人愉悦的调色板(例如,深海军蓝 #1A1F36、柔和蓝绿色 #4FB6AC、浅灰色 #F5F7FA 和白色)
具有清晰层次结构和充足留白的可读无衬线排版
为桌面、平板和移动设备优化的响应式设计
为消息转换和交互元素的流畅动画
具有键盘导航、屏幕阅读器支持和足够对比度的无障碍设计
交互和反馈:
为用户操作(发送、接收、错误)提供清晰的视觉反馈
为增强通信流程的输入指示器和已读回执
用于更快交互的快速回复建议和自动完成
确保应用程序提供直观、可靠且吸引人的对话 AI 体验,可在设备之间扩展并适应多样化的用户需求。

第一代中有很多东西起作用,缺少一些功能部分。

一件非常令人印象深刻的事情是它完美地处理了跨线程搜索。下面你会看到我提到我是湖人队的粉丝。

然后我开始了一个新的聊天,问它我喜欢哪个队,它记住了!在幕后,这一切都由 Converge 中的代理组件 提供支持

将提示转换为检查清单:

  • 多轮内存(每线程 + 跨线程上下文) --- ✅
  • 身份验证 + 用户账户(OAuth / SSO 就绪) --- ✅
  • 持久对话历史(搜索 + 导出) --- ✅
  • 流式响应与交付状态 --- ✅
  • 跨线程搜索 --- ❌
  • 富文本 + 代码渲染 --- ❌(有点)
  • 多模态输入(图像 + 音频上传) --- ✅
  • 图像理解 --- ✅
  • 个性化层(自适应记忆)* 文件上传处理 --- ✅
  • 响应式、无障碍 UI(桌面 → 移动) --- ✅
  • 用户设置(主题、通知、偏好) --- ❌

5、结束语

Sonnet 4.6 是一个很棒的模型。我整周都在测试它,它和 Opus 4.6 一样好,甚至可能更好,同时也更便宜。

AI 世界的变化速度是无情的!


原文链接:Sonnet 4.6 vs Opus 4.6 - 汇智网

相关推荐
自动化和Linux9 分钟前
C语言_scanf(),strlen(),size()的特性和各自的区别
c语言·开发语言
hx8622714 分钟前
Java MySQL 连接
java·mysql·adb
lpfasd12316 分钟前
Kubernetes (K8s) 底层早已不再直接使用 Docker 引擎了
java·docker·kubernetes
aq553560019 分钟前
SpringBoot有几种获取Request对象的方法
java·spring boot·后端
小郝 小郝31 分钟前
51 与32 单片机LED控制详解
c语言·开发语言·经验分享·学习·51单片机
星空露珠35 分钟前
迷你世界UGC3.0脚本Wiki全局函数
开发语言·数据库·算法·游戏·lua
金山几座1 小时前
C#学习记录-类(Class)
开发语言·学习·c#
AsDuang1 小时前
Python 3.12 MagicMethods - 55 - __irshift__
开发语言·python
Detachym1 小时前
InsightFlow 服务配置优化与部署实践
java·spring boot·tomcat·maven·状态模式·jar
y = xⁿ1 小时前
【LeetCodehot100】T23:合并k个升序链表
java·数据结构·链表