500块的豆包,能帮我搞定这个么?!

听说豆包要收费了!

价格大概是 68、200、500 三档!主打办公任务!付费上班的时代终于到了。

现在的 AI 智能体可真的不便宜啊。

前天介绍的字节 Trae Work 收费版也不便宜,分了 59、239、699、1399 这四档!

我就好奇了,到底是什么样的人在买?1399 还没库存,你们实在是太有钱了。

我还没有用 AI 赚到钱,AI 却已经赚了我好多钱了。

我目前已经买了好多套餐了。

20 美金的 Claude,20 美金的 GPT,20 美金的 Gemini,还有国内 149 的 GLM Pro、Kimi、MiniMax、火山 Coding Plan,腾讯的、阿里的......几乎能买的都买过。

现在又来了个豆包专业版!

这些套餐,无一例外,都是几十,几百,几千的档位。

对比一下,国内的 AI 产品其实也不便宜了。外国人赚美金的,它们的 AI 专业版是 20 美金起步。我们赚人民币的,我们的 AI 基本也是要5~ 10 美金起步了,专业版基本也在 20 美金左右了。

1 美金等于 6 块多人民币。但我们的 AI 物价已经达到 1:2 甚至 1:1 了啊!

大家的 AI 消费能力是真强?!

其实,我关心的重点还不是价格。我比较关心的是价格到位了,给的东西怎么样?

豆包的中档版本都已经来到了 200 元了,那它这个能力到底怎么样?

其实不管 500,还是 200,还是 68,背后最关键的还是模型。目前它们家最新的模型是 Doubao-Seed 2.1,包含了 Turbo 和 Pro 版本。

给豆包办公用的目前还是 Turbo 模型,字节 Trae Work 可以选到最强的 Pro 模型!

熟悉我的都知道,我测试模型,已经测了大半年了。天天出各种题目无情的拷打国内外模型,很多宣传很牛逼的模型其实表现非常拉跨。

今天我就专门出个题目考考"豆姐"和其他 AI 工具和 AI 模型。让大家了解一下各种模型的表现和差异。

题目来了,请听题:"我要做一个机械腕表风格的天文时钟"。

完整的题目如下:

markdown 复制代码
用单个 HTML 文件实现一只机械腕表风格的天文时钟,纯原生(不许用任何库、框架、CDN)。
​
要求:
​
1. 主表盘读取本地系统时间,秒针平滑扫秒(非跳秒),且长时间运行不得累积漂移;切到其他标签页再切回来时指针必须立即校准到正确时间。
​
2. 一个月相小表盘,根据当前日期计算并显示月相(新月/上弦/满月等的连续过渡),公式自己实现,精度要求误差在 1 天内。
​
3. 一个可用的计时码表,通过子表盘的指针显示,支持 开始 / 暂停 / 继续 / 归零 与 计圈(lap),按钮在任意顺序点击都不能出现状态错误。
​
4. 日期窗显示当前日,正确处理大小月与闰年。
​
5. 一个昼夜/日出日落指示,用户可在三四个预设城市(给经纬度)间切换,据此现场计算当地日出日落时刻。
​
6. 响应式;尊重 `prefers-reduced-motion`(开启时秒针改为跳秒、关闭装饰动画);为各表盘加 ARIA 标注。
​
7. 整体视觉要像一只真实的高级腕表,而不是练习作业。
​
只输出最终代码,不要解释。

各位题目看懂了么?看懂了我们继续,看不懂也没关系!

这个题目即考验脑子,又考验设计能力,还考验知识储备,还可以考验指令遵循能力。

豆姐现在是走"打工人"人设了,作为一个打工人脑子还是很重要的!上面这个方向做的越好,完成的工作就会越好。

怎么客观比分?

最简单的就是好不好看,能不能用。

当然也可以有一个专业的评分表。

维度 检验方法 弱模型典型失败
规格遵从 数满足了几条(共 7 条) 静默漏掉 2~3 条
数学正确性 拿已知日期核对月相/日出 公式编造、常数错
抗漂移 挂 10 分钟后对系统时间 setInterval 累积偏差
状态机 乱序狂点码表按钮 归零后再开计圈崩
后台校准 切标签页 30 秒再回来 指针停住或跳错
reduced-motion 系统开启该设置 完全忽略
审美 主观,但看排版/配色/层次 通用感、对齐随意

最有区分力的两个"陷阱"是抗漂移月相公式 :几乎没有模型会在普通时钟里犯错(话不要说太早),但在这个堆叠了一堆需求的长题里,较弱的模型注意力被其它需求占满,就会在这两处露馅。

这个题目的前身是让AI生成一个时钟,一年前很多模型都做不到。

但是现在大家都进步了,所以我做了一个升级版的题目。

我本来以为这个题目也不难,毕竟现在AI都收费好几百一个月了,这种需求不是小菜一碟么?但是实际测下来却让人大跌眼镜。我根本不需要上面的评分表,我一眼就能看出差距!

我目前已经测了 10 几个 Agent + Model 了!

下面我来依次给大家展示一下,国内最热门的几个模型,以及国外最热门的几个模型的结果。同时我使用的软件都是它们自家最强的智能体软件 + 最新版的模型!

1. 豆包 2.1 Pro

我们先来看"豆姐"的表现。

我使用的是 Trae Work 的编程功能,并且选择了最新最强的 Doubao-Seed-2.1 Pro。这个配置绝对比单纯的豆包专业版要强。

为了完成这个任务大概消耗了 26 分钟。这个思考时间还比较充分!

最终结果如下:

我们首先用肉眼观察一下这个天文时钟。基本上的外形是正常的,看起来确实像个钟表的样子,没有出现明显的混乱扭曲,指针也都是有的,里面的编号也是正确的。

但是,它最致命的问题是:根本没法用。

从这个图片的底部可以看到,它这个程序出现了 5 个错误,导致它根本无法运行。也就是说时间是完全不走的,月相和计时器根本就没有体现在表盘上,上面的按钮点了也是没有任何用的,让它加几个地区也没有加!

这个要打分的话肯定是不及格了!

我常常开玩笑,把某两个模型叫做"卧龙,凤雏"。按豆姐这个实力,就是堪比"诸葛孔明" 了,智谋无双!

2. Model 3

这是国内唯二的大模型上市公司的最新模型。

它们家最便宜的套餐是49,最贵的469。价格算是比较亲民了,但是质量...

因为它们家的智能体我实在用不下去,太不智能了。所以我就用 Claude Code 加持了一下!

Model 3 大概用了 19 分 17 秒的时间。

下面是它的结果:

哇,这次"凤雏"的表现不错啊!有了孔明的加入,凤雏也显得厉害起来了?

首先,它是没有基础的代码错误的。其次,它的指针是可以走的。它还预设了四个城市,计时器也有,月相也有。该有的都有了。

但是计时器和月相部分执行逻辑有问题。表盘上有四个指针,小表盘和大表盘的执行逻辑混乱。整体设计一般吧!

3. 小米 MiMo

这是小米推出的大模型品牌 MiMo,最新版本是 2.5 Pro,有一段时间也非常火。

它们家的 Token Plan 是 39~659!

它们家的Credit积分非常夸张,动不动就是几百亿。我现在账上还有几百亿快要到期了,实在不知道用来干什么。

这次测试使用的工具是它们自家的 MiMo Code:

我在 WSL 上跑的,第二次打开记录没了。

我就直接看结果吧:

哇哦!有了"孔明"的加持之后,"卧龙"也变得眉清目秀了!

这个界面设计是比较完整的呀,设计感还可以。包括四个地区,计时器的按钮全部都在了。界面上一个大表盘,四个小表盘都在了,时间相关指针也是能正常运转的。

但是,它的问题是徒有其表,它上面的四个按钮和下面的四个按钮都无法使用,里面的三个表盘都是无法联动的。月相计算和显示也有问题!

4. 月之暗面Kimi

Kimi 在国内综合实力还可以,前端设计、多模态方面都相对突出。但是它被我称为"秒男"!就是入门套餐的配额太少太少了。它们家的价格是 49~699!

我用的工具是它们自家的KimiCode:

因为它这个也不方便看时间,我就没有记录时间了。也是花了好一会儿功夫。主要是 Tokens 干到了 90% 左右。

来看结果吧:

完犊子了!

表盘的质感和动太光晕还不错。但是和孔明一样出现了基础错误。代码直接报错了,导致表盘上和网页所有数据都没有,所有指针都不会动。这个只能和豆姐一桌了,60 分以下选手。

5. 智谱 GLM-5.2

智谱也是唯二的上市公司,随着 GLM-5.2 发布,市值狂飙来到了万亿级别!国内最被看好的大模型公司。我也认为它们家是综合实力比较强的。但是它们的套餐你可能永远都抢不到。

它们家的价格是 49~469!其实还是挺有性价比的。

我这次测试用的是它们自家的 ZCode!

GLM-5.2 思考的时间有点长,大概花了 45 分钟。

结果如下:

哇,这个界面应该是目前为止表现力最佳了!元素也比较全面,地区,计时器,表盘基本都在了。

最关键的是它这些表盘都是可以动的! 左边和下方两个是计时器的表盘,右侧的是不同地区的日落日出。

GLM-5.2 这个例子做得确实不错。没太大毛病,但是它这个"月相"我看不太懂!

从上面的截图,其实可以看到,我对 GLM-5.2 的测试不止一次。没想到第一次就是最好的一次。其他结果都有各种问题。

比如这个也出现了基础的 JS 错误!导致表盘上没有数据。当然这个是表现最差的,大部分就是能用,但是不够完美。

按它第一次的表现,分数应该还是可以的,能到80分的样子了。

国内的大概就是这些了!

下面看看国外的。

6. 谷歌 Gemini3.5Flash

说起谷歌就有点意思了。它是互联网巨头,它们又最强的科学家团队,DeepMind 非常牛逼。但是它的 Gemini 却被称戏为"美版豆包"。

这次我的测试工具是它们官方的 Antigravity 2.0(G3.5 Flash):

Gemini 真的是极其敷衍!只花了两分钟,就交差了。

结果自然可想而知:

这个设计和布局,这个功能完成度,真的是和豆姐一个档次了?有点让我点难以置信,G3.5 Flash 刚上线那几天,我测了还挺猛的。这才多久啊,已经降智成这个样子?

我真的很难相信,让它重新跑了一遍:

这个质感就好很多了,这才是它该有的前端水准。

其实它是要比豆姐强的。毕竟没有基础错误,而且几个表盘也都在了,计时器是和地区切换是可以用的。

但是,它首轮的设计确实一般(我们按首轮为准),而且两轮结果各个表盘的指针逻辑是有问题的!

Gemini 3.5 Flash 不能说很差,但是没有达到我对它的预期。

7. OpenAI 的 Codex + GPT 5.5

OpenAI 不用介绍了吧。它家的 GPT 系列引领了整个 AI 新时代!它们家整个体系也最完善。其实它才是美版豆包(非贬义那种),用户数量比豆包还高,我记得很早就到 8 亿了。

它们家的模型也迭代到了 5.5,还有自家的智能体 Codex 也是火遍大江南北,极具代表性。

所以我这次测试,自然也是用了它们自家的 Codex。

Codex大概思考了20分钟左右。

结果如下:

这个结果怎么说呢?其实该有的都有了,一个大表盘,四个小表盘,而且计时功能和城市切换联动效果也都是有的。表盘整体配色也不错。

但是它的整个布局和样式,总感觉透露着一丝混乱。

不同地区的昼夜标识是有问题的,月相应该也是不对的。

GPT 5.5 在代码逻辑上应该还是比较稳的,配色和风格还是不错的。就是界面布局我总是喜欢不起来!

8. Anthropic 的 Opus 4.8

Anthropic 是一个神奇的存在,它们拥有全宇宙最强的编码模型,估值万亿,大家都抢着用,但是动不动就给你封号。Fable 强到离谱,但是大家都用不上!

我测试用的工具也是它们自家的 Claude 桌面版!

我其实都没用 Code 功能,也没有 CoWork,我只是使用了它的聊天功能,直接在对话页面界面生成网页。

结果如下:

哇!只能说,你永远可以相信 Claude Opus 系列!

它基本上是"美貌与智慧并存"。这个浅色的主题设计感也是非常好的。重点是逻辑上几乎没有任何瑕疵。

可以看到,地区切换、计时器这些功能都在,而且运转良好,重点是体验都非常好。你看它最下方的表盘,表示的是不同地区的日落日出时间,它还画了月亮和太阳,以及标注了当前时间所在的位置。

重点是看最上方的"月相"。

我之前的例子都没有特别说这一点。这其实是非常重要的一个考点。

之前没说,是因为它们都停留在其他错误之中!而 Opus 4.8 完美地实现了这个功能。

我特地去查了一下今天的月相情况:

看到没,几乎一模一样。

现在叫做"盈凸月" !

上面其实也有模型说出了这个关键词,有的画出了月相,但是它们的月相是错误的

这个对比就很明显了吧。Opus 4.8 几乎提供了标准答案。

你们可能会觉得这只是偶然,GLM-5.2 第一次表现也还不错。后面就不行了。

既然如此我也多抽几次:

虽然形态各异。但是整体审美在线,功能完善。上面的地区切换,计时器,月相都是可以正常联动的!

我好像忘了说国外这几家的价格了,国外的统一都是 20 美金一档,100 美金、200 美金的样子。不同档位模型基本是一样的。GPT 贵的一档会有 Pro 模型,我没有测,应该会比 GPT 5.5 效果好。

全部看完了,大家是什么感受呢?

豆姐发挥稳定,基本上处于垫底的状态,这波 Kimi 也马失前蹄了,和豆姐一桌。卧龙凤雏表现比预期的好,但是脑子也不太行,逻辑错误比较多。

国内的话确实是 GLM-5.2 整体好一些!

国外的话整体会好一些,没有基础的代码错误,基本上各种功能多多少少是可以用的!

谷歌的 G3.5 Flash 不太稳定,比预期差,OpenAI 的 GPT 界面有点乱,Anthropic 的 Opus 4.8 依旧表现突出!

这只是一个例子而已,不能代表全部。但是也基本涵盖了好几个维度的能力了!

所以,如果要充钱的话,为什么要给"豆姐"呢?

是因为它聪明还是因为它能干呢,还是因为它长得漂亮? 大家用豆包主要是简单、方便、免费吧,当然情绪价值可以给你拉满--你说得对!

要充钱,要论能力还是有很多选择的!

我为了测试这个例子,也是花了很多钱和很多时间的。各位,如果这篇文章点赞不过百,在座的都有责任!😄

所以例子我都已经上传到网站上了:

网址:topai.jarvisuni.com/

相关推荐
火山引擎开发者社区2 小时前
当 Agent 自己做 SRE:详解 ArkClaw 自动化可观测体系的工程实践
人工智能
Coffeeee4 小时前
两个例子,帮你快速理解什么是Token
人工智能·程序员·ai编程
饼干哥哥4 小时前
用AI全自动剪辑,日更 100条爆款视频——HyperFrames、Remotion、Git使用入门
人工智能·机器学习·ai编程
用户83244598541324 小时前
深入拆解 AlexNet:跟着一张猫咪照片,看数据如何流动
人工智能
饼干哥哥4 小时前
开源Skills|搭建亚马逊动态关键词库系统,每天抓SSS级机会词
人工智能·深度学习·数据分析
Weigang4 小时前
别等 Agent 上线后补评估:先用 DeepEval 写失败样本
人工智能
MomentYY4 小时前
AI 到底是“懂”,还是在“猜”?
前端·人工智能·ai编程
拾光拾趣录5 小时前
为什么采用多路检索而不是单一向量检索?
人工智能
拾光拾趣录5 小时前
Agent 编排器是怎么设计的?为什么这样设计?
人工智能