500块的豆包，能帮我搞定这个么？！

听说豆包要收费了！

价格大概是 68、200、500 三档！主打办公任务！付费上班的时代终于到了。

现在的 AI 智能体可真的不便宜啊。

前天介绍的字节 Trae Work 收费版也不便宜，分了 59、239、699、1399 这四档！

我就好奇了，到底是什么样的人在买？1399 还没库存，你们实在是太有钱了。

我还没有用 AI 赚到钱，AI 却已经赚了我好多钱了。

我目前已经买了好多套餐了。

20 美金的 Claude，20 美金的 GPT，20 美金的 Gemini，还有国内 149 的 GLM Pro、Kimi、MiniMax、火山 Coding Plan，腾讯的、阿里的......几乎能买的都买过。

现在又来了个豆包专业版！

这些套餐，无一例外，都是几十，几百，几千的档位。

对比一下，国内的 AI 产品其实也不便宜了。外国人赚美金的，它们的 AI 专业版是 20 美金起步。我们赚人民币的，我们的 AI 基本也是要5~ 10 美金起步了，专业版基本也在 20 美金左右了。

1 美金等于 6 块多人民币。但我们的 AI 物价已经达到 1:2 甚至 1:1 了啊！

大家的 AI 消费能力是真强？！

其实，我关心的重点还不是价格。我比较关心的是价格到位了，给的东西怎么样？

豆包的中档版本都已经来到了 200 元了，那它这个能力到底怎么样？

其实不管 500，还是 200，还是 68，背后最关键的还是模型。目前它们家最新的模型是 Doubao-Seed 2.1，包含了 Turbo 和 Pro 版本。

给豆包办公用的目前还是 Turbo 模型，字节 Trae Work 可以选到最强的 Pro 模型！

熟悉我的都知道，我测试模型，已经测了大半年了。天天出各种题目无情的拷打国内外模型，很多宣传很牛逼的模型其实表现非常拉跨。

今天我就专门出个题目考考"豆姐"和其他 AI 工具和 AI 模型。让大家了解一下各种模型的表现和差异。

题目来了，请听题："我要做一个机械腕表风格的天文时钟"。

完整的题目如下：

markdown 复制代码

用单个 HTML 文件实现一只机械腕表风格的天文时钟,纯原生(不许用任何库、框架、CDN)。

要求:

1. 主表盘读取本地系统时间,秒针平滑扫秒(非跳秒),且长时间运行不得累积漂移;切到其他标签页再切回来时指针必须立即校准到正确时间。

2. 一个月相小表盘,根据当前日期计算并显示月相(新月/上弦/满月等的连续过渡),公式自己实现,精度要求误差在 1 天内。

3. 一个可用的计时码表,通过子表盘的指针显示,支持 开始 / 暂停 / 继续 / 归零 与 计圈(lap),按钮在任意顺序点击都不能出现状态错误。

4. 日期窗显示当前日,正确处理大小月与闰年。

5. 一个昼夜/日出日落指示,用户可在三四个预设城市(给经纬度)间切换,据此现场计算当地日出日落时刻。

6. 响应式;尊重 `prefers-reduced-motion`(开启时秒针改为跳秒、关闭装饰动画);为各表盘加 ARIA 标注。

7. 整体视觉要像一只真实的高级腕表,而不是练习作业。

只输出最终代码,不要解释。

各位题目看懂了么？看懂了我们继续，看不懂也没关系！

这个题目即考验脑子，又考验设计能力，还考验知识储备，还可以考验指令遵循能力。

豆姐现在是走"打工人"人设了，作为一个打工人脑子还是很重要的！上面这个方向做的越好，完成的工作就会越好。

怎么客观比分？

最简单的就是好不好看，能不能用。

当然也可以有一个专业的评分表。

维度	检验方法	弱模型典型失败
规格遵从	数满足了几条(共 7 条)	静默漏掉 2~3 条
数学正确性	拿已知日期核对月相/日出	公式编造、常数错
抗漂移	挂 10 分钟后对系统时间	`setInterval` 累积偏差
状态机	乱序狂点码表按钮	归零后再开计圈崩
后台校准	切标签页 30 秒再回来	指针停住或跳错
reduced-motion	系统开启该设置	完全忽略
审美	主观,但看排版/配色/层次	通用感、对齐随意

最有区分力的两个"陷阱"是抗漂移 和月相公式 ：几乎没有模型会在普通时钟里犯错（话不要说太早）,但在这个堆叠了一堆需求的长题里,较弱的模型注意力被其它需求占满,就会在这两处露馅。

这个题目的前身是让AI生成一个时钟，一年前很多模型都做不到。

但是现在大家都进步了，所以我做了一个升级版的题目。

我本来以为这个题目也不难，毕竟现在AI都收费好几百一个月了，这种需求不是小菜一碟么？但是实际测下来却让人大跌眼镜。我根本不需要上面的评分表，我一眼就能看出差距！

我目前已经测了 10 几个 Agent + Model 了！

下面我来依次给大家展示一下，国内最热门的几个模型，以及国外最热门的几个模型的结果。同时我使用的软件都是它们自家最强的智能体软件 + 最新版的模型！

1. 豆包 2.1 Pro

我们先来看"豆姐"的表现。

我使用的是 Trae Work 的编程功能，并且选择了最新最强的 Doubao-Seed-2.1 Pro。这个配置绝对比单纯的豆包专业版要强。

为了完成这个任务大概消耗了 26 分钟。这个思考时间还比较充分！

最终结果如下：

我们首先用肉眼观察一下这个天文时钟。基本上的外形是正常的，看起来确实像个钟表的样子，没有出现明显的混乱扭曲，指针也都是有的，里面的编号也是正确的。

但是，它最致命的问题是：根本没法用。

从这个图片的底部可以看到，它这个程序出现了 5 个错误，导致它根本无法运行。也就是说时间是完全不走的，月相和计时器根本就没有体现在表盘上，上面的按钮点了也是没有任何用的，让它加几个地区也没有加！

这个要打分的话肯定是不及格了！

我常常开玩笑，把某两个模型叫做"卧龙，凤雏"。按豆姐这个实力，就是堪比"诸葛孔明" 了，智谋无双！

2. Model 3

这是国内唯二的大模型上市公司的最新模型。

它们家最便宜的套餐是49，最贵的469。价格算是比较亲民了，但是质量...

因为它们家的智能体我实在用不下去，太不智能了。所以我就用 Claude Code 加持了一下！

Model 3 大概用了 19 分 17 秒的时间。

下面是它的结果：

哇，这次"凤雏"的表现不错啊！有了孔明的加入，凤雏也显得厉害起来了？

首先，它是没有基础的代码错误的。其次，它的指针是可以走的。它还预设了四个城市，计时器也有，月相也有。该有的都有了。

但是计时器和月相部分执行逻辑有问题。表盘上有四个指针，小表盘和大表盘的执行逻辑混乱。整体设计一般吧！

3. 小米 MiMo

这是小米推出的大模型品牌 MiMo，最新版本是 2.5 Pro，有一段时间也非常火。

它们家的 Token Plan 是 39~659！

它们家的Credit积分非常夸张，动不动就是几百亿。我现在账上还有几百亿快要到期了，实在不知道用来干什么。

这次测试使用的工具是它们自家的 MiMo Code：

我在 WSL 上跑的，第二次打开记录没了。

我就直接看结果吧：

哇哦！有了"孔明"的加持之后，"卧龙"也变得眉清目秀了！

这个界面设计是比较完整的呀，设计感还可以。包括四个地区，计时器的按钮全部都在了。界面上一个大表盘，四个小表盘都在了，时间相关指针也是能正常运转的。

但是，它的问题是徒有其表，它上面的四个按钮和下面的四个按钮都无法使用，里面的三个表盘都是无法联动的。月相计算和显示也有问题！

4. 月之暗面Kimi

Kimi 在国内综合实力还可以，前端设计、多模态方面都相对突出。但是它被我称为"秒男"！就是入门套餐的配额太少太少了。它们家的价格是 49~699！

我用的工具是它们自家的KimiCode：

因为它这个也不方便看时间，我就没有记录时间了。也是花了好一会儿功夫。主要是 Tokens 干到了 90% 左右。

来看结果吧：

完犊子了！

表盘的质感和动太光晕还不错。但是和孔明一样出现了基础错误。代码直接报错了，导致表盘上和网页所有数据都没有，所有指针都不会动。这个只能和豆姐一桌了，60 分以下选手。

5. 智谱 GLM-5.2

智谱也是唯二的上市公司，随着 GLM-5.2 发布，市值狂飙来到了万亿级别！国内最被看好的大模型公司。我也认为它们家是综合实力比较强的。但是它们的套餐你可能永远都抢不到。

它们家的价格是 49~469！其实还是挺有性价比的。

我这次测试用的是它们自家的 ZCode！

GLM-5.2 思考的时间有点长，大概花了 45 分钟。

结果如下：

哇，这个界面应该是目前为止表现力最佳了！元素也比较全面，地区，计时器，表盘基本都在了。

最关键的是它这些表盘都是可以动的！左边和下方两个是计时器的表盘，右侧的是不同地区的日落日出。

GLM-5.2 这个例子做得确实不错。没太大毛病，但是它这个"月相"我看不太懂！

从上面的截图，其实可以看到，我对 GLM-5.2 的测试不止一次。没想到第一次就是最好的一次。其他结果都有各种问题。

比如这个也出现了基础的 JS 错误！导致表盘上没有数据。当然这个是表现最差的，大部分就是能用，但是不够完美。

按它第一次的表现，分数应该还是可以的，能到80分的样子了。

国内的大概就是这些了！

下面看看国外的。

6. 谷歌 Gemini3.5Flash

说起谷歌就有点意思了。它是互联网巨头，它们又最强的科学家团队，DeepMind 非常牛逼。但是它的 Gemini 却被称戏为"美版豆包"。

这次我的测试工具是它们官方的 Antigravity 2.0（G3.5 Flash）：

Gemini 真的是极其敷衍！只花了两分钟，就交差了。

结果自然可想而知：

这个设计和布局，这个功能完成度，真的是和豆姐一个档次了？有点让我点难以置信，G3.5 Flash 刚上线那几天，我测了还挺猛的。这才多久啊，已经降智成这个样子？

我真的很难相信，让它重新跑了一遍：

这个质感就好很多了，这才是它该有的前端水准。

其实它是要比豆姐强的。毕竟没有基础错误，而且几个表盘也都在了，计时器是和地区切换是可以用的。

但是，它首轮的设计确实一般（我们按首轮为准），而且两轮结果各个表盘的指针逻辑是有问题的！

Gemini 3.5 Flash 不能说很差，但是没有达到我对它的预期。

7. OpenAI 的 Codex + GPT 5.5

OpenAI 不用介绍了吧。它家的 GPT 系列引领了整个 AI 新时代！它们家整个体系也最完善。其实它才是美版豆包（非贬义那种），用户数量比豆包还高，我记得很早就到 8 亿了。

它们家的模型也迭代到了 5.5，还有自家的智能体 Codex 也是火遍大江南北，极具代表性。

所以我这次测试，自然也是用了它们自家的 Codex。

Codex大概思考了20分钟左右。

结果如下：

这个结果怎么说呢？其实该有的都有了，一个大表盘，四个小表盘，而且计时功能和城市切换联动效果也都是有的。表盘整体配色也不错。

但是它的整个布局和样式，总感觉透露着一丝混乱。

不同地区的昼夜标识是有问题的，月相应该也是不对的。

GPT 5.5 在代码逻辑上应该还是比较稳的，配色和风格还是不错的。就是界面布局我总是喜欢不起来！

8. Anthropic 的 Opus 4.8

Anthropic 是一个神奇的存在，它们拥有全宇宙最强的编码模型，估值万亿，大家都抢着用，但是动不动就给你封号。Fable 强到离谱，但是大家都用不上！

我测试用的工具也是它们自家的 Claude 桌面版！

我其实都没用 Code 功能，也没有 CoWork，我只是使用了它的聊天功能，直接在对话页面界面生成网页。

结果如下：

哇！只能说，你永远可以相信 Claude Opus 系列！

它基本上是"美貌与智慧并存"。这个浅色的主题设计感也是非常好的。重点是逻辑上几乎没有任何瑕疵。

可以看到，地区切换、计时器这些功能都在，而且运转良好，重点是体验都非常好。你看它最下方的表盘，表示的是不同地区的日落日出时间，它还画了月亮和太阳，以及标注了当前时间所在的位置。

重点是看最上方的"月相"。

我之前的例子都没有特别说这一点。这其实是非常重要的一个考点。

之前没说，是因为它们都停留在其他错误之中！而 Opus 4.8 完美地实现了这个功能。

我特地去查了一下今天的月相情况：

看到没，几乎一模一样。

现在叫做"盈凸月" ！

上面其实也有模型说出了这个关键词，有的画出了月相，但是它们的月相是错误的

这个对比就很明显了吧。Opus 4.8 几乎提供了标准答案。

你们可能会觉得这只是偶然，GLM-5.2 第一次表现也还不错。后面就不行了。

既然如此我也多抽几次：

虽然形态各异。但是整体审美在线，功能完善。上面的地区切换，计时器，月相都是可以正常联动的！

我好像忘了说国外这几家的价格了，国外的统一都是 20 美金一档，100 美金、200 美金的样子。不同档位模型基本是一样的。GPT 贵的一档会有 Pro 模型，我没有测，应该会比 GPT 5.5 效果好。

全部看完了，大家是什么感受呢？

豆姐发挥稳定，基本上处于垫底的状态，这波 Kimi 也马失前蹄了，和豆姐一桌。卧龙凤雏表现比预期的好，但是脑子也不太行，逻辑错误比较多。

国内的话确实是 GLM-5.2 整体好一些！

国外的话整体会好一些，没有基础的代码错误，基本上各种功能多多少少是可以用的！

谷歌的 G3.5 Flash 不太稳定，比预期差，OpenAI 的 GPT 界面有点乱，Anthropic 的 Opus 4.8 依旧表现突出！

这只是一个例子而已，不能代表全部。但是也基本涵盖了好几个维度的能力了！

所以，如果要充钱的话，为什么要给"豆姐"呢？

是因为它聪明还是因为它能干呢，还是因为它长得漂亮？大家用豆包主要是简单、方便、免费吧，当然情绪价值可以给你拉满--你说得对！

要充钱，要论能力还是有很多选择的！

我为了测试这个例子，也是花了很多钱和很多时间的。各位，如果这篇文章点赞不过百，在座的都有责任！😄

所以例子我都已经上传到网站上了：

网址：topai.jarvisuni.com/