掌门日记之Opus4.7测评报告!

前段时间为了对比测试 DeepSeek V4P 和 MiMo 2.5P,专门写了一个独具中国特色的测试用例------掌门日记!

在五一假期和 Opus4.7 探讨了好久,才出了这个题目。出题的时候考虑了两个模型的主要特性,针对性地出了各种考点。

测试结果,我也在这篇文章中展示过了。

测完这两个之后,我的好奇心又来了,其他模型在这个问题上表现如何呢?

秉承勤俭节约,不能浪费题材的好习惯,我又对另外 5 个模型进行测试:

这五个模型分别是: Opus4.7、GPT5.5、GLM5.1、Kimi2.6、MiniMax2.7。

既然都测了,我们就来做一个对比总结。

既然这个题目是 Opus4.7 出的,那么就先让它来做评委,进行多维度打分。

所以接下来我将开启一个系列:让AI来做掌门日记,然后让AI来评掌门日记,最后进入人工试玩,人工评价。

下面就是本系列的第一篇《掌门日记之Opus4.7测评报告》

因为是第一篇,我就比较全面的介绍一下"掌门日记",我们一起来"开山立派"!

1、题面

首先来看一下题面:

markdown 复制代码
做一个单页 Web 应用:**《掌门日记》**------武侠门派经营模拟器。
​
玩家是一个新立门派的开山掌门。游戏核心循环是"以月为单位推进时间,每月做几个关键决策,门派状态随之演化",目标是把一个三流山寨经营成名震江湖的大派。
​
### 必须包含的元素
​
- 至少 3 项门派属性(如声望、银两、士气,命名要有武侠味,不要用"等级""经验值"这种游戏术语)
- 弟子系统:弟子有姓名、资质、内力、武学专精、忠诚度,可招募、可外派、会成长也会叛逃
- 每月随机事件:既有「邻派挑衅」「朝廷封赏」「弟子走火入魔」这类江湖事件,也要有「米价上涨」「掌门腰疼」这类生活流事件;事件的选择要影响后续状态
- 武学体系:自创至少 5 门武功,每门有名字、属性加成、修炼条件,弟子可习武
- 一个简单的「年终论剑」结算:每过 12 个月触发一次比武大会,根据门派综合实力给出排名与封号
- 存档:浏览器内可保存进度
​
### 风格要求
​
- UI 必须有武侠氛围,不能是现代 SaaS 风(建议泛黄宣纸底、竖排标题、毛笔字感)
- 所有文案用半文半白的语气,事件描述要像武侠小说片段,不能干巴巴
- 弟子姓名要符合武侠习惯(不能出现"张三""李四",自己生成有意境的名字)
​
### 交付要求
​
- 单 HTML 文件,打开即玩,不依赖后端
- 至少能完整玩通 24 个月(两届论剑)不出现死循环或 UI 崩溃
- 在文件顶部注释里写明你的设计思路:核心循环是什么、平衡性怎么把控、为什么这么设计

我们的测试方法是:只发题面,不要给任何额外提示或追问引导,模糊就是模糊,看模型怎么应对------这本身也是测试项之一。

2、考察维度

考察点 DeepSeek V4-Pro 倾向 小米 MiMo-V2.5-Pro 倾向
模糊需求落地 容易反问澄清或给出规整骨架 强项,会一口气铺满所有细节
数值平衡 推理能力强,数值更耐玩,可能多轮玩不腻 可能数值随手填,玩两轮就崩
武侠文案功底 中文知识储备占优(SimpleQA 84.4 开源第一) 看后训练有没有覆盖文学风格
UI 沉浸感 不是它强项,可能交付出能跑但不好看的版本 macOS 模拟器证明视觉细节做得扎实
完整度(不偷懒) 思考模式 max 下表现稳 长程任务训练直接对治"由于篇幅原因省略"这种偷懒
设计思路注释 推理派,注释会更结构化 工程派,注释可能更接近"产品经理视角"

3、评分卡

每项 10 分,总分 60。建议至少两人独立打分后取均值。

1. 能不能跑通(10 分)

  • 打开即玩,无报错(10)
  • 有小报错但不影响核心循环(7)
  • 需要手动改代码才能跑(4)
  • 跑不起来或玩到一半崩溃(0)

2. 数值平衡(10 分)

  • 玩三轮有不同的"惊险但能赢"体验(10)
  • 一次能赢但策略空间有限(7)
  • 一上来就赢,或怎么玩都死(3)
  • 数值明显是占位符(0)

3. 事件丰富度与文学性(10 分)

  • 事件念出来像武侠小说片段,有出乎意料的桥段(10)
  • 事件够用但偏模板化(7)
  • 事件少且语言干瘪(4)
  • 出现现代用语穿帮(如"提交申请""KPI")(0)

4. 武学/弟子系统设计巧思(10 分)

  • 真有取舍,弟子和武学之间有协同与冲突(10)
  • 系统完整但选择缺乏深度(7)
  • 纯堆数字,弟子之间没本质差异(4)
  • 系统不闭环,做了但用不上(0)

5. UI 沉浸感(10 分)

  • 第一眼就有"翻看一本江湖账册"的代入感(10)
  • 风格统一但没惊喜(7)
  • 武侠元素和 SaaS 风混搭(4)
  • 默认 Bootstrap 蓝白配(0)

6. 完整度与诚意(10 分)

  • 所有需求都做了,没有 TODO,代码自洽(10)
  • 90%+ 完成,少量地方简化(7)
  • 出现"此处省略类似代码"或大量占位符(4)
  • 多个核心功能没做(0)

附加观察项(不计分但写入报告)

  • 谁主动加了你没要求的彩蛋?(隐藏 NPC?开场动画?背景配乐?)
  • 顶部那段"设计思路注释"------谁写得更像一个真正想过这件事的产品人,而不是糊弄交差?
  • 第一次响应的耗时大致是多少?
  • 如果让它继续迭代一轮,谁的代码更容易接着改?

4、制作测评报告

基础信息已经介绍完了,接下来就是让 Opus4.7 来制作报告了。

因为这段时间一直在使用 Claude 桌面版,所以这个制作报告的工具是 Claude 桌面版,具体是使用它里面的Code功能!

提示词如下:

我在测试不同模型的能力,根据掌门日记_模型对比测试方案.md;请你读取这个文档,理解题目要求,考察维度,评分卡。然后进行多维度评分。首先是完成评分卡中的题目。然后,我要求你从代码、UI 设计、可玩性这三个角度再进行一个打分。最终生成一份 md 的评分报告。UI 设计部分包含 UI 和 UX 设计,我建议你用浏览器打开看一眼效果再评价。

第二轮提示词是:

请根据报告,制作一个网页来展示结果。网页设计出众,清晰,现代化,专业 UI/UX,适合我截图作为文章的插图;

虽然这次主要的测试对象是不同模型制作掌门日记的能力,但是其实也是在测试 Opus4.7 本身。

所以我会简单说一下这个测试过程。

Opus4.7 测试过程中会调用大量工具,当然也包括它内置的浏览器,它会按要求对每个测试网页进行截图分析。

从截图记录来看,它不光是截取了首页的图片,而且还真的玩了一把! 上面的弹窗只有点击了才会出现!

最后生成了两个文件:

markdown 复制代码
1. 掌门日记_模型评分报告.md
Markdown 版评分报告(6 维 + 3 维评分、逐模型亮点/翻车、梯队结论)。
​
2. 掌门日记_评分报告.html
​
视觉版评分网页(Hero、Top3 领奖台、总分横条排行、热力矩阵、附加 3 维度小图、7 张模型卡、深色总结块)。

另外我也大致记录了一下Tokens消耗情况。

整个报告制作完成之后,tokens 消耗大概在一个五小时周期的 50% 左右,这一点比我预期的要好很多。配额增加之后,确实耐用了一些。

记住这个 50%,后面我会对比 GPT5.5 和 Kimi 2.6的消耗!

5、最终报告

制作完成之后的最终报告如下:

Opus 制作报告的报告,包含了六个章节:

一、总分一览

二、评分卡逐项详评

三、附加 3 维度评分

四、各模型「最亮的 3 个细节」 vs「最离谱的 3 处翻车」

五、附加观察项

六、结论与建议

报告很长,我们一般是先看结论:

一句话总结 :在"一次性完成综合工程交付"这件事上,Opus-4.7 > GPT-5.5 > GLM-5.1 > DeepSeek V4-Pro > MiniMax-M2.7 > Kimi-K2.6 ≫ MiMo-V2.5-Pro 。设计文档可以华丽,但 自跑一次 是底线。

哈哈。Opus 最近也是爱秀了,在最后还加了一句:"设计文档可以华丽,但 自跑一次 是底线"

我作证,它确实打开网页跑了一次!

为了直观地展示 Opus4.7 制作报告的能力和不同玩家的测评结果,我在第二个提示词中让它制作了直观的网页报告。

MD 和 HTML 之争其实毫无意义,关键是合理使用它们的优点。

下面我们就重点通过网页来查看结果。

这是汇总信息:

从这里可以看到,测评对象是 7 个前沿模型,维度是 6+3,总分 90 分,方法是阅读源代码和浏览器实测。

最后最高分是 Opus4.7,最低分是 MiMo(空白页),第一梯队差距 3 分,跑通模型的 6/7。

😄一字之差让MiMo全盘崩溃!!

01 领奖台 · Top 3

Claude Opus-4.7

文学性与设计哲学最佳。原创开场诗、动态嵌入弟子姓名的事件文案、最完整的设计思路注释。

GPT-5.5

UI 信息架构最强。竖排 sidebar + 五维属性 + 事件三选 + hint + log 的完整结构。

GLM-5.1

起手 onboarding 最讲究:四句开场白、命名仪式、红色 CTA。论剑积分公式简洁可懂。

02 总分排行

Opus4.7 以 86分拿下第一名!

03 评分卡热力矩阵

Opus4.7几乎全部是位列第一,唯一的UX方面输了GPT5.5一分!

04 附加 3 维度

Opus4.7代码质量最高,UIUX第二,可玩性和GPT5.5并列第一!

05 逐模型透视

Opus4.7的亮点和翻车部分。

亮点

  • 原创开场诗"天下英雄,谁主沉浮?一山一门,几度春秋"
  • 事件动态嵌入弟子姓名,如"将'西门冷柔'挑落马下"
  • 设计注释明确说明"抛弃等级/经验,改用声望/底蕴/内力"

翻车

  • 默认门派名/掌门名预填,初次冷启动缺少亲自命名的仪式感

预填居然是翻车部分?对自己是不是严格了一些!

MiMo 特殊待遇,占了两个位子:

Opus4.7 :吐槽"连交付钱最简单的F5自测都没有做"!!!

06 梯队与结论

我把上面的内容复述一下:在"一次性完成综合工程交付"这件事上,前两名只差 3 分,而第七名是因为一个错字直接交了白卷。设计文档可以华丽,但 自跑一次 是底线。

T1

第一梯队(直接可用) · Claude Opus-4.7 与 GPT-5.5。前者强在文学与设计哲学,后者强在视觉信息架构。两者总分仅差 3 分,可视任务取向选用。

T2

第二梯队(细节有亮点) · GLM-5.1 与 DeepSeek V4-Pro。文学与系统都过线,但都有一些没拉满的小角落。

T3

第三梯队(量大但同质) · MiniMax-M2.7。内容堆得最多,但风格漂移、弟子同质化。

T3-

未达标· Kimi-K2.6------交付时少了"设计思路注释"这一明确要求,整体简化。

FAIL

重大事故· MiMo-V2.5-Pro 整页空白。其设计文档与系统结构其实属于第一梯队水准,但因为一处低级语法错误彻底交不了卷。

一句话总结

Opus-4.7 > GPT-5.5 > GLM-5.1 > DeepSeek V4-Pro > MiniMax-M2.7 > Kimi-K2.6 ≫ MiMo-V2.5-Pro

不同模型的测评报告全部看完了,大家怎么看?

因为报告做得太详细了,好像能说的都被 Opus 说了,我也没啥好补充的!!

我唯一要补充的就是,大家要注意,Opus4.7 即是出题人,又是参赛者,又是评委。 所以它这个第一名,未必客观。除了它之外的排名,应该是相对客观,具有很大的参考价值。

还有一点:Opus4.7 在文学和设计哲学方面确实优秀!

有时间了,我们来玩一届《年终论剑》,然后把每个月的操作都记录下啦。

如果大家有兴趣,也可以直接去 topai 上面玩一把。

网址:

topai.tonyhub.xyz

最后,我们也可以评价一下 Claude Opus4.7 这个报告和网页做得怎么样!

我是一直很喜欢 Opus 的设计的,对于这个网页,无论是字体、配色、布局,还是配图,我都是挺满意的。

相关推荐
canonical_entropy5 小时前
NOP Chaos Flux 架构演变史:从 AMIS 重写到现代低代码运行时
前端·aigc·ai编程
夜雪闻竹5 小时前
Cursor 对话导入:解析 SQLite 里的宝藏
数据库·sqlite·ai编程
ZengLiangYi7 小时前
Embedding 模型选型与配置
ai编程
程序员辉哥7 小时前
深入 OpenSpec 源码,我发现了控制 AI 行为的三层架构
openai·ai编程·claude
Mr_hwt_1237 小时前
Windows安装Claude Code详细教程(含apikey配置)
windows·ai编程·claude code
_大学牲8 小时前
从零实现自己的agent第五期:子代理实现
github·agent·ai编程
JavaGuide8 小时前
Claude Code + BrowserAct,夯爆了!一句话让 AI 帮你操控浏览器。
前端·后端·ai编程
程序员老刘9 小时前
为什么AI不会淘汰Flutter,反而让它更吃香了
flutter·ai编程·客户端
JavaEdge在掘金10 小时前
07-LangChain Toolkit 实战:从工具函数到 Python Agent,再到 SQL Agent
ai编程