听说豆包要收费了!

价格大概是 68、200、500 三档!主打办公任务!付费上班的时代终于到了。
现在的 AI 智能体可真的不便宜啊。
前天介绍的字节 Trae Work 收费版也不便宜,分了 59、239、699、1399 这四档!

我就好奇了,到底是什么样的人在买?1399 还没库存,你们实在是太有钱了。
我还没有用 AI 赚到钱,AI 却已经赚了我好多钱了。
我目前已经买了好多套餐了。
20 美金的 Claude,20 美金的 GPT,20 美金的 Gemini,还有国内 149 的 GLM Pro、Kimi、MiniMax、火山 Coding Plan,腾讯的、阿里的......几乎能买的都买过。
现在又来了个豆包专业版!
这些套餐,无一例外,都是几十,几百,几千的档位。
对比一下,国内的 AI 产品其实也不便宜了。外国人赚美金的,它们的 AI 专业版是 20 美金起步。我们赚人民币的,我们的 AI 基本也是要5~ 10 美金起步了,专业版基本也在 20 美金左右了。
1 美金等于 6 块多人民币。但我们的 AI 物价已经达到 1:2 甚至 1:1 了啊!
大家的 AI 消费能力是真强?!
其实,我关心的重点还不是价格。我比较关心的是价格到位了,给的东西怎么样?
豆包的中档版本都已经来到了 200 元了,那它这个能力到底怎么样?
其实不管 500,还是 200,还是 68,背后最关键的还是模型。目前它们家最新的模型是 Doubao-Seed 2.1,包含了 Turbo 和 Pro 版本。
给豆包办公用的目前还是 Turbo 模型,字节 Trae Work 可以选到最强的 Pro 模型!
熟悉我的都知道,我测试模型,已经测了大半年了。天天出各种题目无情的拷打国内外模型,很多宣传很牛逼的模型其实表现非常拉跨。
今天我就专门出个题目考考"豆姐"和其他 AI 工具和 AI 模型。让大家了解一下各种模型的表现和差异。
题目来了,请听题:"我要做一个机械腕表风格的天文时钟"。
完整的题目如下:
markdown
用单个 HTML 文件实现一只机械腕表风格的天文时钟,纯原生(不许用任何库、框架、CDN)。
要求:
1. 主表盘读取本地系统时间,秒针平滑扫秒(非跳秒),且长时间运行不得累积漂移;切到其他标签页再切回来时指针必须立即校准到正确时间。
2. 一个月相小表盘,根据当前日期计算并显示月相(新月/上弦/满月等的连续过渡),公式自己实现,精度要求误差在 1 天内。
3. 一个可用的计时码表,通过子表盘的指针显示,支持 开始 / 暂停 / 继续 / 归零 与 计圈(lap),按钮在任意顺序点击都不能出现状态错误。
4. 日期窗显示当前日,正确处理大小月与闰年。
5. 一个昼夜/日出日落指示,用户可在三四个预设城市(给经纬度)间切换,据此现场计算当地日出日落时刻。
6. 响应式;尊重 `prefers-reduced-motion`(开启时秒针改为跳秒、关闭装饰动画);为各表盘加 ARIA 标注。
7. 整体视觉要像一只真实的高级腕表,而不是练习作业。
只输出最终代码,不要解释。
各位题目看懂了么?看懂了我们继续,看不懂也没关系!
这个题目即考验脑子,又考验设计能力,还考验知识储备,还可以考验指令遵循能力。
豆姐现在是走"打工人"人设了,作为一个打工人脑子还是很重要的!上面这个方向做的越好,完成的工作就会越好。
怎么客观比分?
最简单的就是好不好看,能不能用。
当然也可以有一个专业的评分表。
| 维度 | 检验方法 | 弱模型典型失败 |
|---|---|---|
| 规格遵从 | 数满足了几条(共 7 条) | 静默漏掉 2~3 条 |
| 数学正确性 | 拿已知日期核对月相/日出 | 公式编造、常数错 |
| 抗漂移 | 挂 10 分钟后对系统时间 | setInterval 累积偏差 |
| 状态机 | 乱序狂点码表按钮 | 归零后再开计圈崩 |
| 后台校准 | 切标签页 30 秒再回来 | 指针停住或跳错 |
| reduced-motion | 系统开启该设置 | 完全忽略 |
| 审美 | 主观,但看排版/配色/层次 | 通用感、对齐随意 |
最有区分力的两个"陷阱"是抗漂移 和月相公式 :几乎没有模型会在普通时钟里犯错(话不要说太早),但在这个堆叠了一堆需求的长题里,较弱的模型注意力被其它需求占满,就会在这两处露馅。
这个题目的前身是让AI生成一个时钟,一年前很多模型都做不到。

但是现在大家都进步了,所以我做了一个升级版的题目。
我本来以为这个题目也不难,毕竟现在AI都收费好几百一个月了,这种需求不是小菜一碟么?但是实际测下来却让人大跌眼镜。我根本不需要上面的评分表,我一眼就能看出差距!
我目前已经测了 10 几个 Agent + Model 了!

下面我来依次给大家展示一下,国内最热门的几个模型,以及国外最热门的几个模型的结果。同时我使用的软件都是它们自家最强的智能体软件 + 最新版的模型!
1. 豆包 2.1 Pro
我们先来看"豆姐"的表现。
我使用的是 Trae Work 的编程功能,并且选择了最新最强的 Doubao-Seed-2.1 Pro。这个配置绝对比单纯的豆包专业版要强。

为了完成这个任务大概消耗了 26 分钟。这个思考时间还比较充分!
最终结果如下:

我们首先用肉眼观察一下这个天文时钟。基本上的外形是正常的,看起来确实像个钟表的样子,没有出现明显的混乱扭曲,指针也都是有的,里面的编号也是正确的。
但是,它最致命的问题是:根本没法用。
从这个图片的底部可以看到,它这个程序出现了 5 个错误,导致它根本无法运行。也就是说时间是完全不走的,月相和计时器根本就没有体现在表盘上,上面的按钮点了也是没有任何用的,让它加几个地区也没有加!
这个要打分的话肯定是不及格了!
我常常开玩笑,把某两个模型叫做"卧龙,凤雏"。按豆姐这个实力,就是堪比"诸葛孔明" 了,智谋无双!
2. Model 3
这是国内唯二的大模型上市公司的最新模型。
它们家最便宜的套餐是49,最贵的469。价格算是比较亲民了,但是质量...
因为它们家的智能体我实在用不下去,太不智能了。所以我就用 Claude Code 加持了一下!

Model 3 大概用了 19 分 17 秒的时间。
下面是它的结果:

哇,这次"凤雏"的表现不错啊!有了孔明的加入,凤雏也显得厉害起来了?
首先,它是没有基础的代码错误的。其次,它的指针是可以走的。它还预设了四个城市,计时器也有,月相也有。该有的都有了。
但是计时器和月相部分执行逻辑有问题。表盘上有四个指针,小表盘和大表盘的执行逻辑混乱。整体设计一般吧!
3. 小米 MiMo
这是小米推出的大模型品牌 MiMo,最新版本是 2.5 Pro,有一段时间也非常火。
它们家的 Token Plan 是 39~659!
它们家的Credit积分非常夸张,动不动就是几百亿。我现在账上还有几百亿快要到期了,实在不知道用来干什么。
这次测试使用的工具是它们自家的 MiMo Code:

我在 WSL 上跑的,第二次打开记录没了。
我就直接看结果吧:

哇哦!有了"孔明"的加持之后,"卧龙"也变得眉清目秀了!
这个界面设计是比较完整的呀,设计感还可以。包括四个地区,计时器的按钮全部都在了。界面上一个大表盘,四个小表盘都在了,时间相关指针也是能正常运转的。
但是,它的问题是徒有其表,它上面的四个按钮和下面的四个按钮都无法使用,里面的三个表盘都是无法联动的。月相计算和显示也有问题!
4. 月之暗面Kimi
Kimi 在国内综合实力还可以,前端设计、多模态方面都相对突出。但是它被我称为"秒男"!就是入门套餐的配额太少太少了。它们家的价格是 49~699!
我用的工具是它们自家的KimiCode:

因为它这个也不方便看时间,我就没有记录时间了。也是花了好一会儿功夫。主要是 Tokens 干到了 90% 左右。
来看结果吧:

完犊子了!
表盘的质感和动太光晕还不错。但是和孔明一样出现了基础错误。代码直接报错了,导致表盘上和网页所有数据都没有,所有指针都不会动。这个只能和豆姐一桌了,60 分以下选手。
5. 智谱 GLM-5.2
智谱也是唯二的上市公司,随着 GLM-5.2 发布,市值狂飙来到了万亿级别!国内最被看好的大模型公司。我也认为它们家是综合实力比较强的。但是它们的套餐你可能永远都抢不到。
它们家的价格是 49~469!其实还是挺有性价比的。
我这次测试用的是它们自家的 ZCode!

GLM-5.2 思考的时间有点长,大概花了 45 分钟。
结果如下:

哇,这个界面应该是目前为止表现力最佳了!元素也比较全面,地区,计时器,表盘基本都在了。
最关键的是它这些表盘都是可以动的! 左边和下方两个是计时器的表盘,右侧的是不同地区的日落日出。
GLM-5.2 这个例子做得确实不错。没太大毛病,但是它这个"月相"我看不太懂!
从上面的截图,其实可以看到,我对 GLM-5.2 的测试不止一次。没想到第一次就是最好的一次。其他结果都有各种问题。

比如这个也出现了基础的 JS 错误!导致表盘上没有数据。当然这个是表现最差的,大部分就是能用,但是不够完美。
按它第一次的表现,分数应该还是可以的,能到80分的样子了。
国内的大概就是这些了!
下面看看国外的。
6. 谷歌 Gemini3.5Flash
说起谷歌就有点意思了。它是互联网巨头,它们又最强的科学家团队,DeepMind 非常牛逼。但是它的 Gemini 却被称戏为"美版豆包"。
这次我的测试工具是它们官方的 Antigravity 2.0(G3.5 Flash):

Gemini 真的是极其敷衍!只花了两分钟,就交差了。
结果自然可想而知:

这个设计和布局,这个功能完成度,真的是和豆姐一个档次了?有点让我点难以置信,G3.5 Flash 刚上线那几天,我测了还挺猛的。这才多久啊,已经降智成这个样子?
我真的很难相信,让它重新跑了一遍:

这个质感就好很多了,这才是它该有的前端水准。
其实它是要比豆姐强的。毕竟没有基础错误,而且几个表盘也都在了,计时器是和地区切换是可以用的。
但是,它首轮的设计确实一般(我们按首轮为准),而且两轮结果各个表盘的指针逻辑是有问题的!
Gemini 3.5 Flash 不能说很差,但是没有达到我对它的预期。
7. OpenAI 的 Codex + GPT 5.5
OpenAI 不用介绍了吧。它家的 GPT 系列引领了整个 AI 新时代!它们家整个体系也最完善。其实它才是美版豆包(非贬义那种),用户数量比豆包还高,我记得很早就到 8 亿了。
它们家的模型也迭代到了 5.5,还有自家的智能体 Codex 也是火遍大江南北,极具代表性。
所以我这次测试,自然也是用了它们自家的 Codex。

Codex大概思考了20分钟左右。
结果如下:

这个结果怎么说呢?其实该有的都有了,一个大表盘,四个小表盘,而且计时功能和城市切换联动效果也都是有的。表盘整体配色也不错。
但是它的整个布局和样式,总感觉透露着一丝混乱。
不同地区的昼夜标识是有问题的,月相应该也是不对的。
GPT 5.5 在代码逻辑上应该还是比较稳的,配色和风格还是不错的。就是界面布局我总是喜欢不起来!
8. Anthropic 的 Opus 4.8
Anthropic 是一个神奇的存在,它们拥有全宇宙最强的编码模型,估值万亿,大家都抢着用,但是动不动就给你封号。Fable 强到离谱,但是大家都用不上!
我测试用的工具也是它们自家的 Claude 桌面版!

我其实都没用 Code 功能,也没有 CoWork,我只是使用了它的聊天功能,直接在对话页面界面生成网页。
结果如下:

哇!只能说,你永远可以相信 Claude Opus 系列!
它基本上是"美貌与智慧并存"。这个浅色的主题设计感也是非常好的。重点是逻辑上几乎没有任何瑕疵。
可以看到,地区切换、计时器这些功能都在,而且运转良好,重点是体验都非常好。你看它最下方的表盘,表示的是不同地区的日落日出时间,它还画了月亮和太阳,以及标注了当前时间所在的位置。
重点是看最上方的"月相"。
我之前的例子都没有特别说这一点。这其实是非常重要的一个考点。
之前没说,是因为它们都停留在其他错误之中!而 Opus 4.8 完美地实现了这个功能。
我特地去查了一下今天的月相情况:

看到没,几乎一模一样。

现在叫做"盈凸月" !
上面其实也有模型说出了这个关键词,有的画出了月相,但是它们的月相是错误的
这个对比就很明显了吧。Opus 4.8 几乎提供了标准答案。
你们可能会觉得这只是偶然,GLM-5.2 第一次表现也还不错。后面就不行了。
既然如此我也多抽几次:


虽然形态各异。但是整体审美在线,功能完善。上面的地区切换,计时器,月相都是可以正常联动的!
我好像忘了说国外这几家的价格了,国外的统一都是 20 美金一档,100 美金、200 美金的样子。不同档位模型基本是一样的。GPT 贵的一档会有 Pro 模型,我没有测,应该会比 GPT 5.5 效果好。
全部看完了,大家是什么感受呢?
豆姐发挥稳定,基本上处于垫底的状态,这波 Kimi 也马失前蹄了,和豆姐一桌。卧龙凤雏表现比预期的好,但是脑子也不太行,逻辑错误比较多。
国内的话确实是 GLM-5.2 整体好一些!
国外的话整体会好一些,没有基础的代码错误,基本上各种功能多多少少是可以用的!
谷歌的 G3.5 Flash 不太稳定,比预期差,OpenAI 的 GPT 界面有点乱,Anthropic 的 Opus 4.8 依旧表现突出!
这只是一个例子而已,不能代表全部。但是也基本涵盖了好几个维度的能力了!
所以,如果要充钱的话,为什么要给"豆姐"呢?

是因为它聪明还是因为它能干呢,还是因为它长得漂亮? 大家用豆包主要是简单、方便、免费吧,当然情绪价值可以给你拉满--你说得对!
要充钱,要论能力还是有很多选择的!
我为了测试这个例子,也是花了很多钱和很多时间的。各位,如果这篇文章点赞不过百,在座的都有责任!😄
所以例子我都已经上传到网站上了:
