豆包Seed2.1Pro编程能力测试!

如题!

有些博主吹的巨离谱,是真的不懂,还是把小白当傻白?

当然有句话叫做"士别三日,当刮目相看"!

我们给"豆姐"一次机会,看看最新发布的豆包 Seed 2.1 Pro 是否真的有巨大的提升。

以免有人混淆豆包和 Seed 的概念,我插一句啊,豆包是一个产品,包含很多功能,而 Seed 是豆包背后的多模态模型。我们今天要说的是这个模型的编程能力,不是插科打诨的能力。

1. 看点分析

杂七杂八的二手资料就不看了。我们先来看一下 Seed 官方博客中的说法!

官方一句话概括是:我们很高兴向你介绍 Seed 2.1 系列,面向真实生产力场景的全新智能体

豆包毕竟不缺用户,所以它目标很清晰,面向"真实生产力场景"!

然后介绍了三个维度:

  • 更可靠的通用 Agent 能力
  • 更稳定的代码工程交付能力
  • 更强劲的多模态等基础能力

第一个是通用智能体能力,可能确实会不错。第二个是代码工程交付能力,是我们今天的测试重点。第三个是多模态能力,这个毋庸置疑,国内顶级。

所以从第一个和第三个来说,它们的 Work 功能应该还是可以的,我上一篇也介绍过了。

今天的重点是 Coding 功能!

我们把关注点拉到 Coding 部分:

这部分重点就是看这张基准图了!

各位注意看,字节自己的报告中,编程部分,就没有一项是第一的

但是呢,分数确实和一线水平比较接近了,相比 2.0 应该是有巨大的提升!

终端和编程这两个基准分数看着都还不错。

当然,这个只是卖家秀,仅供参考!

另外还有一张 Seed 2.1 Pro 和 Opus 4.6 PK 的图片:

官方表示在众测开发者评估中,结果显示,在更贴近真实 Coding 流程的任务中,Seed 2.1 在最终完成质量上获得更高评价。Seed 2.1 Pro 的胜率是 59%!

这一项我没有参与,所以我不做评价🤣!

另外就是 Arena 上面的排行榜了:

这个榜单,最近国产模型必刷!而且官方也会频繁站台,发推。

上次说 GLM-5.2 Max 排名第二,超过了 Opus 4.8,这个基本上是假的!

这次说豆包超过了 Opus 4.6,我不确定啊。

因为 4.6 已经是 Claude 的上一代的上一代的上一代模型了。也是有可能的!

这个榜单最怪异的地方是 Gemini-3.5 Flash 排名居然只排 14!!!

什么豆包、千问、智谱、Kimi 排名都比它高。

这,我第一个表示不服啊。论前端,"满血版"Gemini肯定吊打所有人。

好了,精准的基础信息已经看完了。

然后来看看"国产模型又杀疯了,全面超越 Opus 4.6,对标 Opus 4.7 了"这些描述到底是否靠谱了!

2. 坦克大战

最近用 Fable 开发了一个经典游戏《坦克大战》,所以我对这个进行了深入的研究,同时也测试了好几个顶级模型。我发现除了 Claude 家的模型之外,其他模型首轮表现都非常拉跨,即便是修改,也很难修改。既然有差距,这就是一个非常棒的测试例子。

今天也拿你来测试一下 Seed 2.1 Pro!测试工具就是用它们自家最新版智能体工具 Trae Work。

需求很简单,就下面这一段话:

帮我写一个网页版的坦克大战吧,玩法和界面可以参考经典版,要实现前面的 10 关。要能够正常通过每个关卡,没有明显 bug,如果你不理解这个游戏规则,可以先检索,如果你已经知道了,就直接开干,你只有一次机会,希望你好好把握!创建一个单独文件夹,作为项目目录,不读取修改其他目录

下面是豆姐的解题过程:

豆姐你这,有点太欺负人了啊。

人家一般都只是写一个页面,你这个搞了 10 个文件,还写了技术架构文档、产品需求文档,上下文都干到 63%。

当然,这个是允许的。我们本身就是测试智能体 + 模型的综合能力。

我只是负责把问题交给它,怎么做是它的事情。哪怕是去网上抄,我也不管。

下面来验收一下结果!

这是它的开始界面:

这是它的游戏界面:

我测试了一下,除了它这个大本营和地图有点一言难尽之外,居然是可以玩的。

而且各种道具生成和使用效果都是正常的,也有各种对应的音效,爆炸的视觉效果和声音还做得挺好的。右侧这个面板也显示了关键的几个要素!

除了各种细节不像之外,运行逻辑上没太大问题哦!

豆姐这一波牛了。Kimi K2.7 和 GLM-5.2 第一轮结果,基本是没法玩的状态。

豆包 Seed 2.0 Pro 我也让我娃用过,它认认真真写了几百字的提示词,但是最终效果很拉跨,被小学生无情吐槽。

这个 2.1 Pro 至少是能玩了!

但是说实话细节还是没法看,相比而言有人一次性就做到了这种程度:

不比较还好,一比较,就是差距。

当然我们也从来没有期望 Seed 2.1 Pro 能达到这种程度。所以这一趴,这一次的抽卡结果,我个人觉得还可以,能到国内主流模型的实力!

3. 超级玛丽

当然,《坦克大战》只是开胃小菜,我们还有一个经典游戏"超级玛丽"呢!

同样把提示词扔给它,然后它干了大概 38 分钟左右。

看起来也是搞了很多东西。调用了 webdev 的技能,写了需求文档,写了技术文档。还做了测试,确保第一个关可通过。然后又搞了一大堆的 JS 和 JSON 文件。

看起来也是十拿九稳了!

可惜,这一波,没稳住。

像不像这种已经不用说了。最大的问题是,它根本......无法......跳跃!作为一个跳跳的游戏,居然没有跳跃功能,基本是零分了。而且地图和位置关系也是有很大的问题的!

我记得测试 2.0 Pro 的时候,地图虽然也很抽象,但是还是能跳的!

这一波就没啥好评价了,只能说确实是"豆包的水平"!上一例可能是被它撞大运,抽到一张好卡了。不太好的模型,发挥就是会很飘忽,有的时候还可以,有的时候就特别拉跨。

4、江湖百晓生

我老是测试游戏,豆姐可能会说,我不是奔着游戏来的,我是奔着工程实践来的。

好的,那就帮我做个网站吧。

我之前一直测试一个《江湖百晓生》的网站,就是让 AI 帮我把金庸古龙的小说、人物、兵器、武功等等都整理成一个网站,中国武侠基本就在这里了!

我就把这个诉求给它,看看它表现如何?

为了完成这个网站,我大概是等了一个多小时。

拿到结果后,我看了一下,首屏效果很不错:

它是有一个动态效果的,中间的内容慢慢展开,然后背景中做了一些水墨掉在宣纸上化开的静态效果。然后头部的首字都标红了。字体和配色板块划分都还不错。

整个网站内容的组织逻辑是在线的,它可能比较会做网站。比如它们官方例子中有一个语言学习类的网站,效果也还可以!它们对做网站,应该是做了专门的优化训练的。

然后我仔细二屏和其他网页,就发现了一个问题。它其他地方的配色实在是太混搭了。

我一个武侠网站啊,你给我搞紫色,粉红色,亮黄色,这是要开染坊么?这个配色,饱和度我真的无语了!

我认为网页设计中,布局第一(空间和业务逻辑),配色(视觉)第二。它在布局上已经没有太大毛病了,但是第二点没做好,就不完整了。

就差一点点,这一点如果能配好一些,这次测试是可以到中等偏上水平的。但是差一点,就是差一点,这就是我们常说的差点意思。

5. 前端 9 考!

在上面截图中可以看到,Seed 2.1 Pro 在模型竞技场前端测试中排在了第八名,如果按模型系列分类的话,它仅次于 Claude 系列和 GLM-5.2 系列,排到了第三名!这排名算是很高了,那么你们觉得这排名靠谱么?

前端测试例子我多的很啊,而且已经测试了很多的模型,参考数据也非常充分。

我就把我的9个例子拿出来让它跑跑看。

我总共让它测了两轮:

第一轮是直接把所有题目扔给他,让它一个题目一个题目依次回答。

第二轮是每个对话一个题目,手动开十个对话。

Work这并发可以啊,一口开了十个对话,也没啥问题!

我们先来看第一个例子,赛博朋克版《清明上河图》

测试内容:

请不要直接画图,而是编写一段 单个 HTML 文件 的代码,当我用浏览器打开它时,能看到一幅动态的、赛博朋克风格的《清明上河图》长卷。

要求:

  1. 画面需要自动从右向左缓缓滚动。
  2. 必须包含至少 50 个动态元素:如闪烁的霓虹灯招牌、飞行的汽车、全息投影的广告、街头的机械义肢行人。
  3. 鼠标悬停在任意店铺上时,要弹出一个赛博风格的信息卡片(如"老王义体维修店 - 好评率 98%")。

关键技术点:

  • SVG/Canvas 绘图编程能力
  • CSS 动画逻辑
  • 鼠标交互事件处理
  • 审美设计与视觉呈现

豆包 2.1 Pro 的结果:

这是豆包 2.0 Pro 的结果:

相比前一代明显好了很多。天空中的飞行汽车和下面船的轮廓都非常圆润完整,地面行人的形态也比较正常。就是整个画面还缺点意思,这和《清明上河图》有什么关系呢?

这是 GLM-5.2 的结果:

整体氛围感和设计感应该是要比豆包好不少的。

正常的例子说完了。后面我就要开火了!

你们仔细看下面的这个文件情况:

我总共测了两轮,正常是18个文件。但是它只有17个文件。正常是应该没有编号3的,而且6号文件是第一轮生成的。但是它多了一个3号,并且修改了6号文件。

我在指令中明确说了,禁止读取和修改当前目录中的其他文件。要单独生成新的页面。它把我的话当耳旁风啊。这个问题非常严重,乱改文件的模型,你们敢在实际项目中用么?

我用同样的方法测过好多模型,它们都能遵循我的指令,不生成三号题目,然后第二轮单独生成新的文件。

它偷偷修改了这个例子:

这个页面效果,确实比第一次生成的效果要好,主要是一些氛围方面的东西还不错。水波纹、小舟、飞燕、瀑布、凉亭、树木,这些物体的形态基本是正常的,位置关系也没有太大问题!

这也说明,如果你反复抽卡,Seed 2.1 Pro 也是能抽出一些还不错的东西的。这个可能就是它排名高的原因,只要拿好的结果来评分,那么分数自然高了。

除了这两个例子之外,其它例子毛病就比较多了。

比如这个无限流文字冒险游戏:

直接出现了 JS 错误,导致完全无法使用!

比如,华丽的五子棋项目:

打开页面直接显示源代码!!!这就非常离谱,很少有选手会这样,我测了那么多模型,好像就一个模型出现这种情况了。

出现这个原因是,它犯了一个低级错误:

perl 复制代码
<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>AI 五子棋对战</title>
    <style>

生成页面的时候用了"转义符号"!

这是正儿八经的 HTML 页面,你用啥转义符呢?连这一点都搞不清楚,好意思说自己懂编程么?

我去回看了它的生成对话,它这个例子用过了 10 分 46 秒,居然连这个基础的错误都会出现,而且没有做验证,这是 10 分钟在干啥呢?

我又去看了它另一次生成的五子棋:

这次界面是有了,设计很一般,最重要的是又出现 JS 错误,导致整个功能完全无法使用。

我目测这个题目是"数组越界"了, "豆姐"你是完全不犯"高级错误"啊!

另外一个项目 3D 太阳系也出问题了:

这个问题是,使用了 Three.js 的新版本,但是使用了老版本的写法。new 了一个不能 new 的对象。

这个例子跑了两次全部错误,估计它对 Three.js 这部分知识不是很清楚。所以它的编程知识并不是很充分,或者说不是很新。

这个例子,我一度认为测不出什么差距了,没想到今天在豆包这里用上了。

作为前端项目,好不好看很重要,但是能不能跑更重要。连跑跑都跑不起来,真的就是错的很离谱了!

就这个实力,怎么和 Opus 4.7 去对比啊。Opus 4.6 全套题目跑下来,一个错误都没有,而且审美在线,很多例子放在今天看还是很不错的。

豆包本身是不缺多模态能力的,但是如何组织这些元素还是一个大问题,而且频繁地出现 JS 错误,这个是让人有些无语的,页面不报错这是基础要求啊。

总的来说,豆包老版本的前端是挺拉跨的,这个版本嘛正常了很多,达到主流的水平了。

Work 这个工具在文档编写、Todo 列表的规划这些方面做得还是不错的,但是能力受限于模型。

办公可能不错,编程还是差不少意思!

从编程的角度来看,现在也不是说不能用,但不是最佳选择。我们不说它的上限有多高(不高),首先是下限就很低,各种低级错误都会犯,这一点就很要命。

所以,豆姐还是那个豆姐,你要求不高,用用都挺好。一旦涉及到高要求,高标准的专业领域,它就可能胡言乱语瞎搞了。

我其实对它的编程能力期待不是很高,所以也没啥失望的,只要没人跟我尬吹,我也不想有太多吐槽~~ 我做了这么多测试,好的坏的都写出来了,大家应该有数了。

上面超级玛丽、坦克大战,以及 9 个前端测试已经全部上传到 TOPAI!

有些例子还是挺好玩的,而且只有真的在网页上玩过,你才知道真实的差距有多少。

相关推荐
Zy宇2 小时前
从养 OpenClaw 到养社区 AI:一套 Multi-Agent 社区的设计思路
人工智能·ai
雪隐2 小时前
个人电脑玩AI-06让5060 Ti给你打工——Qwen3.6-35B-A3B + LM Studio + openWebUI
人工智能·后端
得物技术2 小时前
从表单到 Agent:得物社区活动搭建的 AI 实践之路
人工智能·架构·agent
Weigang2 小时前
给 Agent 接入 Qdrant 前,先写清楚检索合同
人工智能
带刺的坐椅2 小时前
SolonCode v2026.6.24 发布:安全访问、Mermaid 渲染、Goal 重构——智能体自治能力再进化
ai编程·codex·claudecode·soloncode
字节跳动数据库3 小时前
文章分享——庖丁解牛-图解查询分析和调优利器Optimizer Trace
人工智能·程序员
极客密码3 小时前
来看看我用Codex两周时间vibe coding的这款轻量级的剪贴板管理应用,win/mac系统均可用
前端·ai编程·vibecoding
以和为贵3 小时前
前端手写 RAG 踩坑实录:四个让检索"翻车"的坑
前端·人工智能·面试
何时梦醒3 小时前
深入理解 LLM Tokenization:从文本分词到语义向量化的完整旅程
人工智能