这几天的大模型圈子,特别热闹。凌晨是 OpenAI 的 o3 和 o4-mini,一觉醒来,国内这边的豆包大模型又上新了一波。
巧合的是,都是能看懂图像、能调用工具的新一代推理模型。
就在今天上午,2025 火山引擎 Force Link AI 创新巡展首站来到杭州。火山引擎总裁谭待宣布,「豆包 1.5 ・深度思考模型」加入豆包大模型全家桶。即日起,用户可在火山方舟官网直接调用「豆包 1.5 ・深度思考模型」API。

豆包 1.5 ・深度思考模型包含两个版本,第一个主线版本是大语言模型 Doubao-1.5-thinking-pro,第二个是具备多模态能力的视觉版 Doubao-1.5-thinking-pro-vision。前者推理能力更强,后者支持视觉推理,开发者可以按需使用。
经多项主流基准测试评估,Doubao-1.5-thinking-pro 在数学推理、编程竞赛、科学推理等专业领域任务以及创意写作等通用任务中均表现突出:

进一步想,让大模型的深度思考叠加视觉理解能力,必然能解锁更广泛更好玩的应用方式。Doubao-1.5-thinking-pro-vision 具备强大的视觉理解能力,就像人类一样,不光基于文字思考,更能基于所见画面思考,且思考得更立体、更深度。
就如下方视频所示,你可以文字提问、语音提问、拍照提问,不管是多复杂的问题,都能得到满意的回答:
与此同时,豆包家族的几位成员也迎来了重磅升级:豆包・视觉理解模型增强了视觉定位能力和视频搜索能力;豆包文生图模型 3.0 版本发布,凭借「更好的文字排版表现、实拍级的图像生成效果、2K 的高清图片生成」三大优势,重新树立了生成式视觉技术的工业级应用标杆。
近一年来,不断增加的调用量和多场景覆盖,让豆包大模型家族持续壮大、越来越全面。去年 12 月,豆包大模型的日均 tokens 调用量达成 4 万亿里程碑。截至 2025 年 3 月底,这个数字已经超过了 12.7 万亿,相比刚发布时实现了超过 106 倍的超高速增长。

本次活动中,火山引擎面向 Agent 服务,发布了 OS Agent 解决方案、GUI Agent 大模型 ------ 豆包 1.5 ・ UI-TARS 模型;面向大规模推理,发布了 AI 云原生・ ServingKit 推理套件。
不断提升模型面向企业复杂场景分析能力,为智能决策与行动提供支持,这也是火山引擎稳居国产 AI 云服务平台第一梯队的根本原因。据 IDC 报告,2024 年中国公有云大模型调用量激增,火山引擎以 46.4% 的市场份额位居中国市场第一。
能看能思考
「原生多模态」成为推理模型标配
对于大部分豆包 APP 的用户来说,3 月初上线的「深度思考」是一项非常实用、好用的功能,但关于背后的推理模型的细节,我们却知之甚少。
从今天的现场发布信息来看,Doubao-1.5-thinking-pro 模型采用 MoE 架构,总参数为 200B,激活参数仅 20B,具备显著的训练和推理成本优势。
专业级推理上,在数学、代码、科学等专业领域推理任务中表现出色,均已达到或接近全球第一梯队水平。
-
数学推理方面,该模型的 AIME 2024 得分为 86.7,追平 OpenAI o3-mini-high。
-
代码能力方面,该模型的 Codeforces pass@8 达到了 55.0%,接近 Gemini 2.5 Pro。
-
科学推理方面,该模型的 GPQA 得分为 77.3%,接近 o3-mini-high。
在创意写作等非推理任务中,Doubao-1.5-thinking-pro 也展示出优秀的泛化能力,能够胜任更广泛和复杂的使用场景。
为了提升模型的通用能力,团队优化了数据处理策略,把可验证数据与创意性数据进行融合处理,满足各类任务的需求。此外,大规模强化学习是训练推理模型的关键技术,团队通过采用创新的双轨奖励机制,兼顾「对错分明」和「见仁见智」的任务,有效实现了算法的可靠优化。
低延迟对于模型深度思考能力的应用来说是一项关键指标。基于高效算法,豆包 1.5 ・深度思考模型在提供行业极高并发承载能力的同时,实现了 20 毫秒极低延迟。
对于当下的大模型应用来说,深度思考能力已经成为标配。我们都习惯了给 AI 多一点时间「深度思考」再回答问题。但很多生活中的实际问题,解决的过程中也是需要随时查询实时信息的。
值得一提的是,目前的豆包 APP 基于豆包 1.5 ・深度思考模型进行了定向训练,将联网能力和深度思考进行了深度绑定。这就很像人类的思维方式 ------「边想边搜」。无需人为设定工作流,模型会自动通过强化学习探索中间用什么样的步骤和过程能达到好的结果,帮助用户获得更加全面、准确、契合需求的结果。
我们看一个很常见的用法。在购物推荐这个典型场景中,给到一个条件很苛刻的问题:「一对夫妻带两个孩子去露营,温度低,有雨,希望把装备买齐,要考虑预算限制,还要兼顾便携性和安全性。」
豆包首先是拆解每个具体需求需要的注意事项,比如装备、预算、安全等方面的注意事项,规划出需要的信息,然后经过了 3 轮搜索,终于给出了符合预算范围、非常细致、深思熟虑的答案。
技术超越之后
生态协同效应的释放
从一年前官宣诞生至今,豆包大模型家族已经「枝繁叶茂」,发展到了 15 位成员的规模。

大模型在业务场景落地的关键挑战:效果不好、成本太贵、落地太难,而豆包大模型始终以更强模型、更低价格、更易落地,帮助企业解决上述问题。
与此同时,火山引擎打造了覆盖完整链路的相关产品,支持 AI 应用落地。在这次活动上,更是有一系列工具和解决方案发布。
作为专为人工智能开发设计的工具,AI IDE 对大模型技术的落地,特别是在简化模型训练与调试、数据管理增强、加速模型部署等方面具备关键作用。
字节跳动此前发布了国内首个 AI IDE------Trae(The Real AI Engineer)。相比于传统的 AI 插件产品来说,Trae 将 AI 与 IDE 深度融合,提供更智能的开发体验,具备交付化、智能化、协作化三个核心特质,使开发者更聚焦解决复杂业务问题而非工程细节。
Agent 赛道从去年火到了今年,也确实是一个极具前景的大模型落地方向。OS Agent 是目前业界公认的真正能从底层发挥 AI Agent 潜力的通用形态,但企业和个人如何打造专属的通用 Agent,是个挑战重重的问题。
火山引擎不直接「销售」Agent 能力,而是希望将构建 OS Agent 的解决方案开放给客户。
在赋能 AI 应用代码智能和浏览器智能方面,火山引擎解决方案的核心组件是豆包大模型和 veFaaS(函数即服务)、云服务器、云手机等产品。豆包大模型实现代码的生成和 agent 的流程,veFaaS 则实现代码沙箱和浏览器沙箱的托管,让企业和开发者可以轻松构建自己的 Code use 和 Browser use。

到了交互和任务相对复杂的 Computer Use 和 Mobile Use 场景,Agent 需要操作电脑或者手机完成任务。火山引擎的解决方案是通过自研 Doubao 1.5 UI TARS 模型以及 Agent,驱动图形用户界面进行交互(GUI),而无需依赖特定的应用程序编程接口(API),并且能够精准识别用户的任务需求,进行智能感知、自主推理并准确行动。

其中,UI-TARS 是一款助力客户打造通用智能体的大模型。它将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在单一模型中,突破传统自动化工具依赖预设规则的局限性,为智能体的界面交互提供了智能体更类似人类、接近人类的模型基础。
豆包 1.5 ・ UI-TARS 模型在 OS World(os-world.github.io/)等 OS 类测试集中取得比较高的分数(目前测下来是 28 分),仅次于 OpenAI CUA 和 Claude sonnet 模型,在国内各类模型中效果最优。目前,豆包・ UI-Tars 模型已经上线火山方舟平台,面向全体用户提供稳定、高效的服务。
本次新发布的 AI 云原生・ ServingKit 推理套件是经过火山方舟 AI 业务、豆包大模型和互联网、汽车、金融各行业客户验证的推理模型部署的一套解决方案,用于帮助客户更快、更省地完成大模型推理服务。通过 AI 容器编排、AI 网关、推理全链路观测和 AI 加速套件,ServingKit 支持在大规模 GPU 集群上运行推理工作负载,并保障推理服务的高性能、高可用性和资源成本优势。企业可快速构建高性能、低成本的生产可用的推理服务,聚焦业务创新而非底层运维。
如果说技术解决了「能不能做」的问题,而生态决定的是「如何做得好且可持续」,进而释放 AI 技术落地的全局价值。火山引擎打造的一系列工具,无一不在大模型落地层面起到了标准化流程、提升效率和促进协作的作用。
从中,我们不仅看到了国产 AI 技术的超越,更看到了生态协同效应的释放。