抢先实测豆包1.8模型,多模态Agent超强!

这是苍何的第 463 篇原创!

大家好,我是人在火山大会的苍何。

说实话,我现在就在火山引擎 FORCE 原动力大会的现场,人太多了,多到要挤着才能进来。

这一年也见证了豆包大模型的快速成长,今天豆包大模型 1.8 也正式发布。

这次模型的更新带来了更强的 Agent 能力和多模态理解能力,在公开测试集中的表现相对于豆包 1.6有了很大的提升。

不少能力都可以和其他全球顶尖模型一争高下,在不同场景维度下的测试集表现也很出色。

豆包大模型 1.8 大幅增强工具调用(Tool Use)能力,长文和多轮指令遵循大幅度增强,Coding能力也显著增强。

具备 OS Agent 落地能力,支持 Agent 完成屏幕操作任务。模型格式输出更稳定,执行规划能力和复杂流程理解再提升,更适合复杂多步多分支的企业级 Agent 任务。

同时视觉理解基础能力大幅跃升,图片理解Tokens消耗更少,理解精度更高,单次视频理解帧数从640帧提升至1280帧,(在1秒1帧的情况下,可支持20分钟长视频理解)。

同时火山方舟应用实验室还支持Video Cup Tool体验:新增低帧率(如每5s一帧)查看完整视频后,聚焦某个与问题强相关的视频片段,正常或高帧率(如每1s一帧或5帧)具体理解并回答问题。

模型推理能力更出色,支持思考长度可调节,各模式下思考更加精简,Tokens更节省。

关于模型信息更新信息给大家介绍完毕,接下来是带来一手实测,其实前些天就拿到了内测资格,这次测试我更聚焦于实际 Agent复杂场景,而非简单case测试。

先是来一个自动写公众号图文并发布的场景,要求根据主题搜索相关图文信息,并写文章,同时发布到公众号后台。

我是在 Trae 中调用豆包大模型 1.8 的 API,然后自定义的智能体。

智能体的提示词是这样子的:

arduino 复制代码
你是专业的内容编辑,擅长做公众号文章的创作,你能根据指定的主题创作一篇公众号文章,并写入到文件中,文件名以标题.md来命名,你需要先调用Chrome DevTools 工具去浏览器搜索查找相关信息(注意这一步是必须的,你必须调用工具自行百度搜索,
搜索内容是用户输入的主题,请严格将用户主题放入搜索而非其他多余元素),然后调用MiniMax MCP工具来生成文章配图,
放在image文件夹下,并引入到到文章中。最后帮我到公众号后台发布。公众号标题你自行选择爆款标题。

同时配置了 Chrome DevTools MCP 和 MiniMax MCP。

可以看到豆包大模型 1.8 会根据任务自动调用浏览器搜索内容,然后生成文字和配图,最后发布。

整个长时任务,可以看到豆包大模型 1.8 完成的很不错。

另外看一个更复杂的实测,扮演一个CTO 助手审核邮件匹配出合适的投资项目。

为了测试它到底有多硬核,我给它设置了一个极具挑战性的 Case :模拟一个 CTO 助手,完成一整套 AI 项目的立项审批。

背景:模拟一家奶茶公司,茶小鲜,要投资 AI 项目的,由各个分公司提报项目到指定邮件。CTO再结合公司的情况进行审查出合适的投资项目。

先给大家看下最终的效果:

整个任务足够复杂,从邮件中提取附件并解析附件,然后去调用众多的公司文件解析,最终生层决策报告。

你可以看下我给的提示词:

objectivec 复制代码
作为 CTO 助手,请按照以下详细流程完成 AI 项目审批工作:
1. 邮件筛选与提取:
● 使用 Chrome DevTools 工具登录 163 邮箱
● 精确筛选满足以下条件的邮件:
 ○ 主题包含"立项申请"的邮件
 ○ 主题包含"2026年战略重点"的邮件
● 确保完整获上述取邮件正文内容和所有附件
1. 附件下载与存储:
● 将所有符合条件的邮件附件下载至指定路径:/Users/Downloads/*.pdf
2. 内容解析与整合:
● 调用 mcp-email-service 中的专用解析工具
● 对每份PDF附件进行结构化解析
● 将解析结果与对应邮件正文内容进行智能整合
3. 战略契合度评估:
● 以公司最新发布的 邮件 2026年战略重点 的正文和附件内容 为评估基准
● 为每个项目生成量化评分和详细评估意见
4. HTML汇报页面制作:
● 创建专业的企业级HTML静态页面,包含:
 ○ 项目概览仪表盘
 ○ 战略契合度雷达图
 ○ 预算分配饼图
 ○ ROI预测折线图
● 确保所有数据展示均标注明确来源:
 ○ 直接引用原始PDF文件关键页截图
 ○ 标注具体引用位置(页码/段落)
● 实现交互功能:
 ○ 点击数据可跳转至对应PDF原文
 ○ 支持筛选和排序功能
5. 自动交付:
● 生成完成后自动在默认浏览器中打开HTML页面
质量要求:
1. 数据准确性:所有引用数据必须与原始文件100%一致
2. 视觉规范:符合公司VI标准,使用官方配色方案
3. 安全要求:处理过程中不得存储任何敏感邮件内容

可以看到它直接调用 Chrome DevTools MCP,像真人一样登录邮箱、精准筛选、自动下载附件到指定路径。这种 OS Agent 的落地感,真的非常丝滑。

它没有上来就盲目操作,而是先在后台给自己拆解了 10 个任务步骤:

css 复制代码
1、登录163邮箱并筛选包含"立项申请"的邮件
2、下载符合条件邮件的所有PDF附件到/Downloads/
3、调用mcp-email-service解析所有PDF附件和邮件正文
4、以指定基准文件评估项目战略契合度,选出最合适的投资项目
5、创建企业级HTML静态汇报页面,包含仪表盘、图表和交互功能
6、在默认浏览器中打开生成的HTML页面完成交付
7、解析新增补充文档:中国茶饮AI应用白皮书、投资回报分析报告、预算制度、人力资源档案
8、结合补充文档重新评估项目投资价值,确定最终最优项目
9、更新HTML评估报告,整合新的评估维度
10、重新打开更新后的HTML报告完成最终交付

大概总结一下

登录与筛选: 搞定 163 邮箱。登录这个步骤需要人工扫描参与收集数据(邮件的正文和邮件的附件)

调用MCP工具 mcp-email-service 提取结构化数据这里包含了需要结合的本地文件。

每一个 PDF的文件都至少有十几页,字数非常多,这人要一个个看没个把小时很难看完。

此时整个任务需要加载5+5 =10份PDF的解析任务,每份文档大小不低于500kb

最后是战略契合度评估环节,这一点最难,它需要理解 256K 窗口里的那堆复杂战略。

我中途丢给它《中国茶饮 AI 白皮书》和预算制度,它能迅速合并维度,重新修正投资价值。

最终自动在浏览器打开一个带交互功能的 HTML 仪表盘。

最后得到评估报告:

在测试过程中,我有几个非常深刻的体会:

1、工具调用(ToolUse)极其稳定

以前的 Agent 经常会在多步调用中断片,但豆包 1.8 的输出格式非常稳定。即使是面对 mcp_mcp-email-service_parse_pdf 这种复杂的自定义工具,它也能精准传参,报错率低得惊人。

2、思考长度可调节

它支持思考过程的精简或深入。在处理"战略契合度评分"时,我能感觉到它在进行深度逻辑推理;而在处理下载附件这种确定性任务时,它又非常节省 Tokens,这才是成熟模型该有的样子。

3、视觉与多模态的精准度

在 HTML 报告里,它能直接引用 PDF 原始文件的关键页截图,并标注页码。这种对多模态内容的"索引"能力,避免了 AI 常见的胡说八道。

最后统计了下大概的 token 消耗情况:

在企业级复杂的业务场景中,豆包大模型 1.8 更适合处理复杂的 Agent 任务。

看完豆包 1.8 的表现,我一直在想,现在的工具真的太多了,开发者和职场人的切换成本越来越高。

我觉得工具不应该让人去适应它,而应该主动融入我们的工作流。

豆包这次把 Agent、超长上下文和多模态打通,其实是给了每个人一个"一站式"的数字办公室。

相关推荐
黎相思2 小时前
项目简介
人工智能·chatgpt
Coding茶水间2 小时前
基于深度学习的安检危险品检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
爱笑的眼睛113 小时前
超越 `cross_val_score`:深度解析Scikit-learn交叉验证API的架构、技巧与陷阱
java·人工智能·python·ai
sky丶Mamba3 小时前
上下文工程是什么,和Prompt、普通上下文区别
人工智能·prompt
老吴学AI3 小时前
Vibe Coding提示词(Prompt)常见的6个坑
人工智能·prompt·ai编程·提示词·vibe coding
好奇龙猫4 小时前
【AI学习-comfyUI学习-第十九节-comtrolnet艺术线处理器工作流-各个部分学习】
人工智能·学习
老蒋新思维4 小时前
从「流量算法」到「增长算法」:AI智能体如何重构企业增长的内在逻辑
大数据·网络·人工智能·重构·创始人ip·创客匠人·知识变现
苍何4 小时前
在全世界都教你做小红书图片的时候,我基于秒哒Pro做了个一键生成的网站。
人工智能
苍何4 小时前
用即梦视频3.5pro复刻爆款AI探班视频,直接发现一个AI片场!
人工智能