摘要:2026年6月,火山引擎FORCE原动力大会在北京举办。本次大会发布豆包大模型2.1 Pro旗舰模型,在编程、Agent、多模态理解三大维度对标国际顶尖水平;推出视频生成模型Seedance 2.5,实现30秒直出和50个全模态素材输入;升级AgentKit 3.0支持数字员工全生命周期管理和持续进化能力;同时发布完整的AI Trust安全信任体系。本文提炼大会核心发布与技术要点,和大家分享。
目录
- [豆包大模型2.1 Pro:跨越生产质变点](#豆包大模型2.1 Pro:跨越生产质变点)
- [视频生成模型Seedance 2.5:30秒直出与50参考输入](#视频生成模型Seedance 2.5:30秒直出与50参考输入)
- [豆包2.1 Pro定价与成本优势](#豆包2.1 Pro定价与成本优势)
- [AgentKit 3.0:数字员工全生命周期管理](#AgentKit 3.0:数字员工全生命周期管理)
- 多模态模型矩阵全面升级
- [AI Trust安全信任体系](#AI Trust安全信任体系)
- [字节跳动内部AI Coding实践](#字节跳动内部AI Coding实践)
- 写在最后
1. 豆包大模型2.1 Pro:跨越生产质变点
1.1 核心定位与关键数据
豆包大模型日均tokens调用量已达180万亿,相比两年前增长超过1500倍,过去一年增长超过10倍。火山引擎在公有云MaaS市场的tokens份额达49.5%,万亿tokens俱乐部成员从100家增长至200多家。
简单说就是:中国每两个tokens的消耗,就有一个来自火山引擎。这个占比挺夸张的,也说明豆包在企业端的渗透率确实起来了。
豆包2.1 Pro是火山引擎宣称首个突破生产级质变点的国产大模型,具备四项核心能力:生产级别可交付代码、指令遵循与幻觉控制、领先多模态理解、企业级稳定规模化运行。
所谓"生产质变点"这个词翻译成人话就是:模型不再只是玩具,而是能真正进到企业生产流程里干活了。
1.2 Coding能力评测数据
| 评测集 | 豆包2.1 Pro | 对比模型 | 说明 |
|---|---|---|---|
| Terminal Bench | 与Claude Opus 47持平 | Claude Opus 47 | 终端编程端到端工程任务 |
| SciCode | 59.8分 | Claude Opus 47、GPT-55 | 科学计算代码,五大学科科研问题 |
| NL2Repo-Bench | 47分 | GPT-55、Gemini 3.1 Pro | 仓库级代码生成,从需求文档生成可运行仓库 |
这三个评测集分别对应三种场景:终端里跑工程任务、搞科研写代码、从零生成整个代码仓库。根据大会内容,豆包在这三个维度上基本都追到了全球第一梯队。尤其NL2Repo-Bench这个,从需求文档直接生成可运行仓库,如果真能稳定落地,对软件开发流程的改变会很大。
芯片设计RTL实战:围绕16x16 PE的TPU模型连续运行18小时、9轮迭代,完成6个核心模块、1300多行RTL代码,跑通仿真、测试、综合检测完整流程。
选芯片设计这个场景来演示,我觉得是刻意为之的。因为RTL代码是芯片设计里最核心的环节------每个寄存器和信号线在每个时钟周期怎么流动都得写清楚。传统上这是3-5个资深工程师数周的工作量。18小时跑完1300行,还能通过验证,这个对比效果确实有说服力🕶️。
1.3 Agent能力评测
| 评测集 | 豆包2.1 Pro表现 |
|---|---|
| SWE-Pro | 国内第一,覆盖九大行业44种职业 |
| ProgramBench | 全面超过Claude Opus 47和GPT-55(36个API服务、220个工具、1000+任务) |
| LangChain盲评 | 对比Claude Opus 46净胜率超10% |
多Agent实战:调动500多个Agent协同作业,累计触发工具调用上千次,完成100多栋建筑的3D城市构建。
500个Agent上千次工具调用------这个数字的意义不在于它大,而在于它说明Agent之间的协同调度已经能稳定跑通长链路任务了。比起单次对话有多聪明,能不能稳定跑完一个复杂任务链才是企业级应用更关心的。
1.4 多模态理解能力
- GUI操作:桌面端接近Claude Opus 4.7,移动端大幅领先获全球SOTA
- 图像理解:MIPRO等多个榜单获高分,超过GPT-5.5、Claude Opus 4.7和Gemini 3.1 Pro
- 视频理解:Tomato和LVBench榜单大幅领先Gemini 3.1 Pro
- 端到端视频编辑:一次性理解两小时长视频,自动产出解说、拼接片段、合成音频、选取背景音乐,全流程Agent自动完成
2. 视频生成模型Seedance 2.5
Seedance 2.5将于7月初正式发布,带来三项全球领先的升级:
| 升级项 | 参数 | 行业地位 |
|---|---|---|
| 单视频生成长度 | 最长30秒 | 全球第一(同类产品仅15-20秒) |
| 全模态素材联合输入 | 最多50个 | 全球最多 |
| 视频编辑能力 | 灵活可控的局部修改 | 支持白模预演、产品说明书等场景 |
这是整场大会里我最震惊的产品。30秒单条直出和50个参考输入,这两个数字放在行业里确实很能打。但视频生成赛道真正的瓶颈从来不是秀参数,而是生成的内容能不能直接进生产流程------比如广告公司能不能直接用、影视团队愿不愿拿来做预演。Seedance 2.5从演示看方向是对的,实际效果等7月正式版出来再看。
典型场景如下,期待一个seedance2.5测评:
- 影视制作白模预演:输入10万面宇宙飞船白模+材质参考,稳定保持结构比例与材质光影
- 广告内容本地化:维持整体画面修改局部内容
- 产品视频说明书:输入图片和功能描述,输出多语言标准视频
- 合成数据:生成多场景多视角视频,用于机器人标注仿真和自动驾驶corner case训练
值得一提的还有:Seedance 2.0原生4K升级,率先支持4K 10bit高色深原生直出,复杂运动镜头保持4K质感。
3. 豆包2.1 Pro定价与成本优势
| 定价模式 | 价格(每百万Token) |
|---|---|
| 标准输入 | 6元 |
| 标准输出 | 30元 |
| 缓存命中 | 1元 |
| Turbo版本 | Pro的一半 |
相比GPT-4.6到4.8系列,综合使用成本降低近80%,在国产模型中性价比最高之一。
输出30元/百万token,这个价格放在行业里确实便宜。字节的算力规模优势在这里体现得很明显,定价本身就是一种竞争策略------把门槛打下来,让更多企业愿意进来试。缓存命中1元这个更有意思,说明很多调用场景下重复计算被优化掉了,实际使用成本会比标价更低。
4. AgentKit 3.0:数字员工全生命周期管理
4.1 核心模块
AgentKit包含八大核心模块:
| 模块 | 功能 |
|---|---|
| Entity | 统一身份体系 |
| Runtime | 运行环境与多Agent编排 |
| Sandbox | 隔离环境安全执行 |
| SDK | 开发框架工程化支持 |
| Observability | 全链路追踪 |
| Evaluation | 质量量化评测与持续迭代 |
| Memory & Knowledge | 知识记忆与业务上下文接入 |
| Policy(新增) | Agent行为边界管理 |
| Registry(新增) | Agent能力资产注册发现 |
4.2 两大核心升级
持续进化能力:
- 分布式Harness:记录不同Agent实例的运行轨迹和业务反馈,沉淀到全局记忆
- Learning Loop:基于数据复盘纠偏和能力沉淀
数字员工全生命周期管理:
- 员工市场:一键雇佣数字员工
- 上岗考核:通用考核模板评估准确率、幻觉率、首Token延迟、安全合规等指标
- 调度中枢Hive:自动拆解任务,多员工协同执行
- 管理大盘:从效率、质量、反馈、成本持续考核度量
这个板块值得留意的是:当一家公司开始把"数字员工管理"做成产品功能模块,说明Agent的规模化部署已经从理论走向真实需求了。Evals和Observability这些模块的出现,意味着企业开始要求Agent的产出是可度量、可考核的。以前大家关心"AI能不能做",现在开始关心"AI做得怎么样、花了多少钱、能不能稳定复现"。
4.3 企业实践案例
- 懂车帝:通过AgentKit构建Agent平台,上线智能问答和数据审批系统
- 上汽集团:搭建企业级智能问数平台,统一解决数据权限治理
- 世峰科技:覆盖研发提效到物流调度全场景的AI办公助理
- 中金财富:联合定制金融专属大模型,沉淀300余名分析师研究成果和数千名投顾服务经验
5. 多模态模型矩阵全面升级
5.1 图像生成模型Seedream 5.0 Pro
| 特点 | 说明 |
|---|---|
| 交互式精准编辑 | 语言描述+画面标记圈选,识别箭头和高亮块理解意图 |
| 多图层分离 | 圈选点选任意区域拆分层次,智能填充底板,递归二次拆分 |
| 高密度信息呈现 | 复杂图表、多层结构、整页PPT信息在一张图中完整呈现 |
| 多语言支持 | 支持英文、西班牙语、阿拉伯语、日语、韩语等10余种文字,自动适应文化语境 |
多图层分离这个能力在创作场景里其实很实用。之前AI生图的问题一直是一锤子买卖------生成完就定死了,没法拆开改。能拆图层意味着设计师可以拿AI生成的图做二次编辑,个人来看蛮实用的,希望用起来不鸡肋。
5.2 语音与音频模型
- 豆包语音合成模型2.0:扩展至超过15个语言,声音复刻模型扩展至超过20个语言
- 豆包音频生成模型1.0:兼顾情绪、口音、背景音乐、环境音效及拟音特效,一次直出影视级成品音效;仅凭输入文本推理声音特征,音色稳定不漂移
6. AI Trust安全信任体系
企业落地AI面临三大安全问题:
| 问题 | 解决方案 |
|---|---|
| 对模型的信任(云端数据安全、输入输出泄露、黑盒审计) | ICC机密计算:拆分计算、同态加密、TEE计算,端到端加密 |
| 对Agent的管控(行为路径动态生成、意图偏离、越权操作) | AI助手安全平台:提示词攻击防护、敏感数据防泄露、高危操作拦截 |
| 安全运营挑战(攻防从天级变秒级、AI自动化攻击) | 安全运营AI检测:多智能体协同自主进化,准确率99%以上 |
AI Trust这个板块可能很多开发者不太关注,但企业采购决策里,安全往往是第一道门槛------功能再强,数据安全过不了审计,根本进不了采购名单。ICC机密计算解决了"数据在云端算的时候被别人看到"的问题,这对金融、政务、医疗这类行业来说可能是决定性的。
实践案例如下:
- 华擎:基于豆包大模型搭建自动化检测体系,采用AICC机密计算架构
- 理想汽车:构建AI助手纵深防御体系,全链路管控
- 中国石油勘探院:安全运营智能体实现日常告警AI自动化值守,运营效率提升10倍
- 中国移动:联合推出移动引擎机密计算服务,全面适配国产算力和可信云体系
7. 字节跳动内部AI Coding实践
大会后程,字节跳动技术副总裁洪定坤分享了字节内部面临的三大挑战,这也是全场我个人觉得最值得反复看的部分:
挑战一:指标失真
- 团队AI代码贡献率超90%,人均需求吞吐率提升60%(1.6倍)
- 但AI写代码速度是人10倍以上,单一代码贡献率难以衡量全局效率提升
90%的代码是AI写的,但效率只提升了60%,这个gap说明什么?说明写代码根本不是效率瓶颈------想清楚需求、对齐方案、修bug、做测试、处理边界情况,这些才是真正花时间的地方。如果只盯着代码生成那一环,指标再好看也有水分。
挑战二:Web Coding与软件工程鸿沟
- 9种组合×100次实验:功能正确率超80%,但UI可用性、可靠性、维护性等可交付性维度大幅下降
- Harness基建价值:结合内部基建后,正确率从80%提升至90%,可交付性问题从40-60分提升至80分
900次实验这个数据很有参考价值。纯靠模型+框架,正确率80%但可交付性只有40-60分,加上Harness基建之后直接拉到80分。说白了,模型能力决定了上限,但能不能稳定产出可交付的代码,取决于你围绕模型搭的那一圈工程基础设施。这也解释了为什么字节一直在强调Harness。它不是锦上添花,是决定AI代码能不能真正进生产环境的关键。
挑战三:角色协作
- 产品经理用AI生成代码但存在性能、扩展性、权限安全问题
- 两大实践方向:原型驱动的开发模式、系统化的开发
两大实践方向:
- 原型驱动开发:从文档驱动转向原型驱动,用AI快速生成可交互原型,大幅缩短需求对齐周期
- 系统化开发:AI不只写代码,还要进入研发全流程------需求拆解、功能开发、自动验证、Bug修复、性能优化、自动提交发布
8. 写在最后
整场发布会看下来,最让我印象深刻的有两件事:一是字节在AI基础设施上的投入确实到了一个量级,180万亿的日均tokens调用量不是靠吹出来的;二是洪定坤那段关于内部AI Coding实践的坦诚分,90%代码贡献率但人均效率只提升了60%,这个gap才是真实世界里AI落地的样子。
- 本文基于B站视频《2026火山引擎FORCE原动力大会 主会场》进行观点整理,使用音视频转录工具Ai好记进行要点提炼、思维导图梳理,复盘、扩展相关产品信息。如果你也有这类行业大会视频解析学习需求,可以试试这个工具,亲测准确度很高,可以一试!

如有问题欢迎评论区交流。如果本文对你有帮助,点赞、收藏、转发支持~