豆包Seed2.1Pro编程能力测试！

如题！

有些博主吹的巨离谱，是真的不懂，还是把小白当傻白？

当然有句话叫做"士别三日，当刮目相看"！

我们给"豆姐"一次机会，看看最新发布的豆包 Seed 2.1 Pro 是否真的有巨大的提升。

以免有人混淆豆包和 Seed 的概念，我插一句啊，豆包是一个产品，包含很多功能，而 Seed 是豆包背后的多模态模型。我们今天要说的是这个模型的编程能力，不是插科打诨的能力。

1. 看点分析

杂七杂八的二手资料就不看了。我们先来看一下 Seed 官方博客中的说法！

官方一句话概括是：我们很高兴向你介绍 Seed 2.1 系列，面向真实生产力场景的全新智能体。

豆包毕竟不缺用户，所以它目标很清晰，面向"真实生产力场景"！

然后介绍了三个维度：

更可靠的通用 Agent 能力
更稳定的代码工程交付能力
更强劲的多模态等基础能力

第一个是通用智能体能力，可能确实会不错。第二个是代码工程交付能力，是我们今天的测试重点。第三个是多模态能力，这个毋庸置疑，国内顶级。

所以从第一个和第三个来说，它们的 Work 功能应该还是可以的，我上一篇也介绍过了。

今天的重点是 Coding 功能！

我们把关注点拉到 Coding 部分：

这部分重点就是看这张基准图了！

各位注意看，字节自己的报告中，编程部分，就没有一项是第一的！

但是呢，分数确实和一线水平比较接近了，相比 2.0 应该是有巨大的提升！

终端和编程这两个基准分数看着都还不错。

当然，这个只是卖家秀，仅供参考！

另外还有一张 Seed 2.1 Pro 和 Opus 4.6 PK 的图片：

官方表示在众测开发者评估中，结果显示，在更贴近真实 Coding 流程的任务中，Seed 2.1 在最终完成质量上获得更高评价。Seed 2.1 Pro 的胜率是 59%！

这一项我没有参与，所以我不做评价🤣！

另外就是 Arena 上面的排行榜了：

这个榜单，最近国产模型必刷！而且官方也会频繁站台，发推。

上次说 GLM-5.2 Max 排名第二，超过了 Opus 4.8，这个基本上是假的！

这次说豆包超过了 Opus 4.6，我不确定啊。

因为 4.6 已经是 Claude 的上一代的上一代的上一代模型了。也是有可能的！

这个榜单最怪异的地方是 Gemini-3.5 Flash 排名居然只排 14！！！

什么豆包、千问、智谱、Kimi 排名都比它高。

这，我第一个表示不服啊。论前端，"满血版"Gemini肯定吊打所有人。

好了，精准的基础信息已经看完了。

然后来看看"国产模型又杀疯了，全面超越 Opus 4.6，对标 Opus 4.7 了"这些描述到底是否靠谱了！

2. 坦克大战

最近用 Fable 开发了一个经典游戏《坦克大战》，所以我对这个进行了深入的研究，同时也测试了好几个顶级模型。我发现除了 Claude 家的模型之外，其他模型首轮表现都非常拉跨，即便是修改，也很难修改。既然有差距，这就是一个非常棒的测试例子。

今天也拿你来测试一下 Seed 2.1 Pro！测试工具就是用它们自家最新版智能体工具 Trae Work。

需求很简单，就下面这一段话：

帮我写一个网页版的坦克大战吧，玩法和界面可以参考经典版，要实现前面的 10 关。要能够正常通过每个关卡，没有明显 bug，如果你不理解这个游戏规则，可以先检索，如果你已经知道了，就直接开干，你只有一次机会，希望你好好把握！创建一个单独文件夹，作为项目目录，不读取修改其他目录

下面是豆姐的解题过程：

豆姐你这，有点太欺负人了啊。

人家一般都只是写一个页面，你这个搞了 10 个文件，还写了技术架构文档、产品需求文档，上下文都干到 63%。

当然，这个是允许的。我们本身就是测试智能体 + 模型的综合能力。

我只是负责把问题交给它，怎么做是它的事情。哪怕是去网上抄，我也不管。

下面来验收一下结果！

这是它的开始界面：

这是它的游戏界面：

我测试了一下，除了它这个大本营和地图有点一言难尽之外，居然是可以玩的。

而且各种道具生成和使用效果都是正常的，也有各种对应的音效，爆炸的视觉效果和声音还做得挺好的。右侧这个面板也显示了关键的几个要素！

除了各种细节不像之外，运行逻辑上没太大问题哦！

豆姐这一波牛了。Kimi K2.7 和 GLM-5.2 第一轮结果，基本是没法玩的状态。

豆包 Seed 2.0 Pro 我也让我娃用过，它认认真真写了几百字的提示词，但是最终效果很拉跨，被小学生无情吐槽。

这个 2.1 Pro 至少是能玩了！

但是说实话细节还是没法看，相比而言有人一次性就做到了这种程度：

不比较还好，一比较，就是差距。

当然我们也从来没有期望 Seed 2.1 Pro 能达到这种程度。所以这一趴，这一次的抽卡结果，我个人觉得还可以，能到国内主流模型的实力！

3. 超级玛丽

当然，《坦克大战》只是开胃小菜，我们还有一个经典游戏"超级玛丽"呢！

同样把提示词扔给它，然后它干了大概 38 分钟左右。

看起来也是搞了很多东西。调用了 webdev 的技能，写了需求文档，写了技术文档。还做了测试，确保第一个关可通过。然后又搞了一大堆的 JS 和 JSON 文件。

看起来也是十拿九稳了！

可惜，这一波，没稳住。

像不像这种已经不用说了。最大的问题是，它根本......无法......跳跃！作为一个跳跳的游戏，居然没有跳跃功能，基本是零分了。而且地图和位置关系也是有很大的问题的！

我记得测试 2.0 Pro 的时候，地图虽然也很抽象，但是还是能跳的！

这一波就没啥好评价了，只能说确实是"豆包的水平"！上一例可能是被它撞大运，抽到一张好卡了。不太好的模型，发挥就是会很飘忽，有的时候还可以，有的时候就特别拉跨。

4、江湖百晓生

我老是测试游戏，豆姐可能会说，我不是奔着游戏来的，我是奔着工程实践来的。

好的，那就帮我做个网站吧。

我之前一直测试一个《江湖百晓生》的网站，就是让 AI 帮我把金庸古龙的小说、人物、兵器、武功等等都整理成一个网站，中国武侠基本就在这里了！

我就把这个诉求给它，看看它表现如何？

为了完成这个网站，我大概是等了一个多小时。

拿到结果后，我看了一下，首屏效果很不错：

它是有一个动态效果的，中间的内容慢慢展开，然后背景中做了一些水墨掉在宣纸上化开的静态效果。然后头部的首字都标红了。字体和配色板块划分都还不错。

整个网站内容的组织逻辑是在线的，它可能比较会做网站。比如它们官方例子中有一个语言学习类的网站，效果也还可以！它们对做网站，应该是做了专门的优化训练的。

然后我仔细二屏和其他网页，就发现了一个问题。它其他地方的配色实在是太混搭了。

我一个武侠网站啊，你给我搞紫色，粉红色，亮黄色，这是要开染坊么？这个配色，饱和度我真的无语了！

我认为网页设计中，布局第一（空间和业务逻辑），配色（视觉）第二。它在布局上已经没有太大毛病了，但是第二点没做好，就不完整了。

就差一点点，这一点如果能配好一些，这次测试是可以到中等偏上水平的。但是差一点，就是差一点，这就是我们常说的差点意思。

5. 前端 9 考！

在上面截图中可以看到，Seed 2.1 Pro 在模型竞技场前端测试中排在了第八名，如果按模型系列分类的话，它仅次于 Claude 系列和 GLM-5.2 系列，排到了第三名！这排名算是很高了，那么你们觉得这排名靠谱么？

前端测试例子我多的很啊，而且已经测试了很多的模型，参考数据也非常充分。

我就把我的9个例子拿出来让它跑跑看。

我总共让它测了两轮：

第一轮是直接把所有题目扔给他，让它一个题目一个题目依次回答。

第二轮是每个对话一个题目，手动开十个对话。

Work这并发可以啊，一口开了十个对话，也没啥问题！

我们先来看第一个例子，赛博朋克版《清明上河图》

测试内容：

请不要直接画图，而是编写一段单个 HTML 文件的代码，当我用浏览器打开它时，能看到一幅动态的、赛博朋克风格的《清明上河图》长卷。

要求：

画面需要自动从右向左缓缓滚动。

必须包含至少 50 个动态元素：如闪烁的霓虹灯招牌、飞行的汽车、全息投影的广告、街头的机械义肢行人。

鼠标悬停在任意店铺上时，要弹出一个赛博风格的信息卡片（如"老王义体维修店 - 好评率 98%"）。

关键技术点：

SVG/Canvas 绘图编程能力
CSS 动画逻辑
鼠标交互事件处理
审美设计与视觉呈现

豆包 2.1 Pro 的结果：

这是豆包 2.0 Pro 的结果：

相比前一代明显好了很多。天空中的飞行汽车和下面船的轮廓都非常圆润完整，地面行人的形态也比较正常。就是整个画面还缺点意思，这和《清明上河图》有什么关系呢？

这是 GLM-5.2 的结果：

整体氛围感和设计感应该是要比豆包好不少的。

正常的例子说完了。后面我就要开火了！

你们仔细看下面的这个文件情况：

我总共测了两轮，正常是18个文件。但是它只有17个文件。正常是应该没有编号3的，而且6号文件是第一轮生成的。但是它多了一个3号，并且修改了6号文件。

我在指令中明确说了，禁止读取和修改当前目录中的其他文件。要单独生成新的页面。它把我的话当耳旁风啊。这个问题非常严重，乱改文件的模型，你们敢在实际项目中用么？

我用同样的方法测过好多模型，它们都能遵循我的指令，不生成三号题目，然后第二轮单独生成新的文件。

它偷偷修改了这个例子：

这个页面效果，确实比第一次生成的效果要好，主要是一些氛围方面的东西还不错。水波纹、小舟、飞燕、瀑布、凉亭、树木，这些物体的形态基本是正常的，位置关系也没有太大问题！

这也说明，如果你反复抽卡，Seed 2.1 Pro 也是能抽出一些还不错的东西的。这个可能就是它排名高的原因，只要拿好的结果来评分，那么分数自然高了。

除了这两个例子之外，其它例子毛病就比较多了。

比如这个无限流文字冒险游戏：

直接出现了 JS 错误，导致完全无法使用！

比如，华丽的五子棋项目：

打开页面直接显示源代码！！！这就非常离谱，很少有选手会这样，我测了那么多模型，好像就一个模型出现这种情况了。

出现这个原因是，它犯了一个低级错误：

perl 复制代码

&lt;!DOCTYPE html&gt;
&lt;html lang="zh-CN"&gt;
&lt;head&gt;
    &lt;meta charset="UTF-8"&gt;
    &lt;meta name="viewport" content="width=device-width, initial-scale=1.0"&gt;
    &lt;title&gt;AI 五子棋对战&lt;/title&gt;
    &lt;style&gt;

生成页面的时候用了"转义符号"！

这是正儿八经的 HTML 页面，你用啥转义符呢？连这一点都搞不清楚，好意思说自己懂编程么？

我去回看了它的生成对话，它这个例子用过了 10 分 46 秒，居然连这个基础的错误都会出现，而且没有做验证，这是 10 分钟在干啥呢？

我又去看了它另一次生成的五子棋：

这次界面是有了，设计很一般，最重要的是又出现 JS 错误，导致整个功能完全无法使用。

我目测这个题目是"数组越界"了， "豆姐"你是完全不犯"高级错误"啊！

另外一个项目 3D 太阳系也出问题了：

这个问题是，使用了 Three.js 的新版本，但是使用了老版本的写法。new 了一个不能 new 的对象。

这个例子跑了两次全部错误，估计它对 Three.js 这部分知识不是很清楚。所以它的编程知识并不是很充分，或者说不是很新。

这个例子，我一度认为测不出什么差距了，没想到今天在豆包这里用上了。

作为前端项目，好不好看很重要，但是能不能跑更重要。连跑跑都跑不起来，真的就是错的很离谱了！

就这个实力，怎么和 Opus 4.7 去对比啊。Opus 4.6 全套题目跑下来，一个错误都没有，而且审美在线，很多例子放在今天看还是很不错的。

豆包本身是不缺多模态能力的，但是如何组织这些元素还是一个大问题，而且频繁地出现 JS 错误，这个是让人有些无语的，页面不报错这是基础要求啊。

总的来说，豆包老版本的前端是挺拉跨的，这个版本嘛正常了很多，达到主流的水平了。

Work 这个工具在文档编写、Todo 列表的规划这些方面做得还是不错的，但是能力受限于模型。

办公可能不错，编程还是差不少意思！

从编程的角度来看，现在也不是说不能用，但不是最佳选择。我们不说它的上限有多高（不高），首先是下限就很低，各种低级错误都会犯，这一点就很要命。

所以，豆姐还是那个豆姐，你要求不高，用用都挺好。一旦涉及到高要求，高标准的专业领域，它就可能胡言乱语瞎搞了。

我其实对它的编程能力期待不是很高，所以也没啥失望的，只要没人跟我尬吹，我也不想有太多吐槽~~ 我做了这么多测试，好的坏的都写出来了，大家应该有数了。

上面超级玛丽、坦克大战，以及 9 个前端测试已经全部上传到 TOPAI！

有些例子还是挺好玩的，而且只有真的在网页上玩过，你才知道真实的差距有多少。