字节发布最新豆包视觉推理模型，一手实测来啦！

苍何2025-10-01 10:56

这是苍何的第 438 篇原创！

大家好，我是苍何。

太卷了啊。兄弟们。

字节又发布了最新的豆包视觉推理模型，叫 Doubao-Seed-1.6-vision/250815。

现在火山引擎的模型广场就可以直接看到。

我也进行了深度参与测试，在视觉理解能力上提升很大。

为了方便测试，我接入了 API，并 vibe 了一个测试工具。

代码和使用教程也在 GitHub 上开源了。

在放测试 case 之前，稍微介绍下这个视觉推理模型吧。

Doubao-Seed-1.6-vision 是全新升级的多模态大模型，适用于视频理解、Grounding、GUI Agent等高复杂度的场景，支持 256k 上下文窗口，输出长度支持最大 64k tokens。

最为亮眼的地方在于基于 Responses API 全新支持 image process build-in tools 能力。

也就是最思考推理时能自动调用图像处理工具。目前内置四种图像处理工具，分别是：grounding&crop、point&draw_line、zoom、rotate。

下面来看下几个 case，感受下它的能力吧。

图像旋转

把这个图像丢给 Doubao-Seed-1.6-vision，配合上提示词：

白纸上写了什么？

可以看到，它会思考过程中推理并调用工具rotate自动旋转图片然后做识别。

我录了个视频，展示了模型的思考和工具调用全链路。

同样另外一个图像旋转的 case 是用它做书籍识别：

这是我的原始图片：

提示词：桌子上放了什么书？

模型先调用zoom工具放大细节：

然后调用rotate工具进行图像旋转：

最后推理分析得出结论：

我也录了个全程的视频，大家可以感受一下。

超市找人

这张超市里的图片（素材来自网络），我想让它帮我找下穿绿色上衣的人。

模型会自动调用 zoom 工具放大细节，然后用 point 工具进行标记。

最后精准找到我们需要找的人并做标记，同样全流程视频如下：

清明上河图找人

来个非常有挑战的，我们知道清明上河图上有非常多人物，姿势动作各异，要想让大模型在清明上河图上精确找人，还是非常有难度的。

提示词：在这幅《清明上河图》的局部里，帮我找到正在激烈争吵的两个人，并用线连接他们，表示他们正在对话。

本身图片就稍微模糊，要是人来找，估计也得废个半天。

豆包 Doubao-Seed-1.6-vision 先是自动调用zoom工具来进行放大细节

经过多次对比分析，最后找出人物，全流程视频如下：

历史背景不合分析

这张图片，让 Doubao-Seed-1.6-vision 分析下不符合常理的地方。

提示词：这张图片描绘的场景在历史准确性上存在什么问题？请解释为什么这个细节不符合历史背景。

它会调用一系列工具，推理分析图片细节，找出不符合的地方。

全过程视频如下：

安全隐患分析

VLM 视觉模型还有个非常实用的场景，就是可以对安全隐患进行分析。

提示词：这张看似平常的家庭照片中，存在哪些潜在的安全隐患？请具体指出危险点，并说明可能导致的后果。以及标注出有隐患的点

模型会调用 point 等工具先进行一轮分析，然后自主推理，根据常识判断是否会有安全隐患。

流程图识别

对于流程图的识别也不在话下。

这是我的创作流程，Doubao-Seed-1.6-vision 能很好的别别并给到我反馈。

医疗影像分析

VLM 视觉模型另外一个使用场景就是在对医疗影像进行分析，比如：

提示词：这是一张胸部X光片，请检查一下肺部是否有异常结节。如果发现可疑区域，请圈出来，并大致测量一下它的最大径。另外，这张片子有点歪，请帮我把它旋转扶正，让脊柱保持垂直，看下效果。

Doubao-Seed-1.6-vision 就会依次自主调用工具，先是调用rotate进行旋转，

然后调用 zoom 工具进行局部多次放大：

视频如下：

影视剧查找

一些精彩的片头，总是想不出是哪部影视剧了，现在就可以借助 Doubao-Seed-1.6-vision 来分析。

提示词：这是哪部剧？

可以看到，它能精确找出影视剧的名字。

细节感知

这个 case 能看到 Doubao-Seed-1.6-vision 能自动进行图片的放大，并做翻译处理。

当一张照片模糊到看不清的时候，也可以借助 Doubao-Seed-1.6-vision 来进行细节放大。

这一点非常有用，对于放大细节来说，场景可太丰富了。

图例判断

这个 case，考察模型能否根据图片的细节，推理出在哪个城市。

根据标识牌推理在哪个国家。

路径选择

多题解答

好了，搞完这些 case，我人直接麻了。

讲真的，AI 的发展速度已经快到让人有点窒息了。

最恐怖的地方在于，它不再是简单地「看懂」图片，而是在「思考」如何更好地去理解。通过调用旋转、缩放、标记这些工具，它就像一个真正的人，在想方设法地解决问题。

从在复杂的《清明上河图》里找人，到分析X光片的细节，这些以前我们想都敢想的场景，现在正一个个变成现实。

我们正处在一个技术爆炸的奇点，每天都有新的可能性诞生。今天我们还在惊叹它能找人，明天它可能就成了我们生活里离不开的眼睛。

这种感觉，真让人无比兴奋。

上一篇：Python快速入门专业版（十）：字符串特殊操作：去除空格、判断类型与编码转换

下一篇：档案管理系统如何对企业效率重构与提升？

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 10Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚