- DeepResearch介绍
1.1 分享背景
阿里通义团队于9月重磅开源的高性能智能体(Agent)模型------Tongyi DeepResearch,专为处理复杂、长周期的信息检索任务而设计,具备优异的多步推理与工具调用能力。是首个在性能上可与OpenAI DeepResearch相媲美、并在多项权威benchmark测试中取得领先的开源Web Agent。

1.2 DeepResearch理解
DeepResearch由大语言模型(LLM)驱动,为完成信息研究任务,集成了动态推理、自适应规划、多轮外部数据检索与工具使用,并能生成综合性分析报告的AI智能体,自主完成从提出研究计划到生成最终报告的端到端复杂研究流程。DeepResearch流程示意图如下:

DeepResearch 框架通过分层查询、递归迭代以及智能决策等步骤,实现深度信息搜索和处理。本流程主要包含以下关键步骤:
-
意图理解: 用户输入查询后,系统会将其解析为多个子查询,以便更精确地理解用户需求。
-
处理条件判断: 系统会根据如下条件判断是否继续执行
- Token预算是否超出
- 动作深度是否超出
如果满足上述条件,则终止查询并直接返回答案;否则进入递归执行步骤。
-
递归执行步骤: 在递归执行过程中,系统执行信息检索、模型推理及上下文处理等任务。
-
动作类型判定: 根据推理结果,系统决定下一步执行的动作类型:
- answer:回答动作
- reflect:反思动作
- search:搜索动作
- read:阅读动作
- coding:代码动作
这些动作会影响上下文,并不断更新系统状态。
- 结果反馈: 根据最终的动作类型,系统执行相应的任务,并将结果返回给用户,完成整个流程。

由上图所示,DeepResearch核心能力 总结如下:
- 基于Agent基座模型的复杂推理能力
- 通过工具调用实现的环境交互能力
- 覆盖全流程的任务规划与执行能力
- 面向知识整合的总结与报告生成能力
在具备上述能力的同时,DeepResearch面临着一个不可忽视的关键挑战 :模型有限的上下文长度 ,限制了可检索知识的规模,进而影响信息的完整性与覆盖度。

- Tongyi DeepResearch调研
2.1 Tongyi Web Agent家族全景
当前主流DeepResearch项目所做的工作,都是用于面向互联网公开信息检索的Web Agent。通义实验室的DeepResearch系列研究也是如此,对其相关研究总结如下表所示:
|-------------------------------|------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------|
| Web Agent名称 | DeepResearch范式 | 数据合成 | Agentic Model训练流程 | 局限 |
| WebWalker | Multi-Agent 1. explore agent 2. critic agent | WebWalkerQA Benchmark构建(680个QA对、来自1373个网页): 单源QA&多源QA:通过网页数据量划分 | 未训练Agentic Model | |
| WebDancer | Mono-Contextual Paradigm | ① QA对构建:CRAWLQA、E2HQA ② 从QA对中采样高质量轨迹 | ① RFT冷启动 1. 数据:ReAct格式的长/短CoT数据 2. 损失计算:屏蔽Observation ② 强化学习 1. 算法:DAPO 2. 奖励:由格式分数 和答案分数 组成 | 数据集较简单,超过50%的轨迹只要求两次工具调用,几乎没有超过十次的 |
| WebSailor | Mono-Contextual Paradigm | ① QA对构建 :构建复杂的信息图谱作为结构基础 → 通过子图随机采样和信息模糊化生成高不确定性问题 ② Trajectory重构 :开源LRM生成完整轨迹(Thought, Aciton, Observation)→ 使用其他强LLM重新生成"short-CoT"风格的Thought | ① RFT冷启动 1. 数据:丢弃长度超过32k的轨迹;只保留工具调用次数超过5次的数据 2. 损失计算:屏蔽Observation ② 强化学习 1. 算法:DUPO 2. 奖励:由格式分数 和答案分数 组成 | ① 数据层面: 1. 结构简单,倾向于生成树状或无环的逻辑结构 2. 无法捕捉或生成现实世界中的复杂场景,循环关系、反馈回路、相互依赖等 ② 模型层面: 1. Context窗口限制在32K 2. RL过程限制在50步内 3. "过度思考"倾向 |
| WebShaper | Mono-Contextual Paradigm | ① QA对构建: 1. 构建离线Wikipedia数据库,下载所有文章URL并保留超链接 2. 通过链接进行随机游走,聚合文章内容 3. 使用LLM从聚合内容生成问答对,仅基于收集内容,不依赖外部知识 4. 过滤:使用WebDancer和QwQ模型对种子QA进行5次rollout,保留至少一次回答正确的问题,得到1.8w种子问题 ② Agentic扩展问题复杂性: 1. agentic Expander:ReAct框架,迭代式优化问题生成 2. KP表示法;分层扩展策略 ③ Trajectory重构 : 1. 使用基于QwQ并与Expander对齐的ReAct范式 2. agent配备Search和Visit工具,每个问题执行5次rollout 3. LLM-as-Judges保证:正确性(移除工具调用错误)和质量(过滤幻觉或严重重复的轨迹) 4. 5000条轨迹用于SFT和RL训练 | ① RFT冷启动 1. 损失计算:屏蔽Observation ② 强化学习 1. 算法:GRPO | ① 种子问题的构造过程需要5次rollout,并验证至少一次是正确的,增加开销 ② 性能受限于这些外部工具的能力和它们所能访问的实时web内容 |
| WebResearcher | IterResearch Paradigm 每轮迭代都精简工作空间 | ① Multi-Agent协同数据合成框架 ② QA对构建 : 1. 种子QA生成:Summary Agent提升信息密集型→ItemWriter Agen生成简单QA对 2. 迭代升级QA复杂度:使用tool-augmented ItemWriter Agent迭代升级复杂性 3. 严格质量把控:过滤QuestionSolver Agent不使用工具正确回答的QA;保留QuestionSolver Agen使用工具正确回答的QA;SimilarityScore Agent过滤重复QA ③ Trajectory重构 :同WebSailor | ① RFT冷启动 1. 数据:仅保留最终答案与参考答案一致的轨迹 2. 训练目标:强化马尔科夫属性,每一轮的生成仅依赖前一轮的状态 3. 损失计算:屏蔽Observation ② 强化学习 1. 算法:GSPO 2. 采样效率优化:最小损失降采样 | |
| ReSum | ReSum Paradigm 定期上下文总结实现无限探索 | 使用WebSailor-QA作为训练数据 | ① 总结模型训练:ReSumTool-30B ② Agent Model没有进行SFT ③ 强化学习 1. 数据:按照总结次数将完整轨迹进行分段 2. 算法:ReSum-GRPO 3. 奖励:仅答案正确性奖励,不施加格式奖励 | |
| WebWeaver | ① 双Agent架构 : Planner & Writer ② Memory Bank | / | ① Planner 1. Evidence Acquisition 2. Outline Optimization ② Memory Bank 1. 对原始网页摘要存入记忆库,Writer根据需要使用ID从记忆库精准检索出原始信息 2. 减轻模型的上下文压力,避免"中间丢失"和"上下文干扰" ③ Writer:"检索-思考-协作-清理"为大纲中的每个部分循环执行 | 可以分块存储,不做精确检索,通过向量检索 |
| WebSailor-V2 | Mono-Contextual Paradigm | ① QA对构建 1. 克服无环图的局限,丰富数据元信息(searh query&source URLs) 2. 基于随机游走进行子图采样,并使用WL算法保证子图非同构 3. 采样子图先分析非同构节点数量再进行模糊化处理 ② Trajectory重构:同WebSailor | ① SFT冷启动 1. 数据:丢弃长度超过128k的轨迹; 2. 损失计算:屏蔽Observation ② 强化学习 1. GRPO | 决定Agent能力边界的,或许不是模型参数,而是数据质量与训练生态系统的构建方式 |
| Tongyi DeepResearch (30B-A3B) | 引入Agentic CPT ,改变Agentic Model训练新范式 | ① Agentic CPT Data 1. First-order Action Synthesis:Planning Action Synthesis & Reasoning Action Synthesis 2. High-order Action Synthesis:利用RFT和RL阶段丢弃的大量有价值数据;模拟多项对比决策保留训练样本 ② Post-Training Data:前序研究积累的后训练数据 | ① 两阶段Agentic CPT 1. Stage 1:32K上下文;200B tokens;具备工具调用和多步推理基础能力 2. Stage 2:128K上下文;100B tokens;理解复杂动作空间和长期规划策略 | |

2.2 核心技术解读
基于对通义团队Agentic Model训练及DeepResearch智能体架构相关研究的归纳总结,DeepResearch能力的成功,核心依赖于三大要素:DeepResearch任务范式 、训练范式 及数据合成 。
2.2.1 DeepResearch任务范式
- Mono-contextual Paradigm
Mono-contextual Paradigm是指单一上下文线性积累的DeepResearch范式。如下图所示,Mono-contextual Paradigm的特点是将ReAct循环迭代过程中的所有信息(包含系统指令与角色设定、用户查询与研究问题、模型思考、工具输出、工具返回结果等)顺序追加到同一的上下文窗口中。

对于任务相对简单、信息量少的场景下,这种结构简化了系统实现,避免了多模块协同的复杂性。但对于复杂的任务,随着研究轮次的增长,上下文长度不断增长,会带来以下问题:
Cognitive Workspace Suffocation: 随着研究深度增加,上下文的数据持续积累,模型的推理能力减弱。固定的上下文被历史信息主导,因而无法为深度思考提供足够的空间,当上下文窗口接近其极限时,迫使研究终止提前得出结论。
Irreversible Noise Contamination: 由于没有过滤或修改早期内容的机制,不相关的信息和初始错误在整个研究过程中持续存在。这种噪声累积稀释了信号质量,并且随着时间推移而加剧,降低了研究的整体质量。
上述限制造成了一个悖论 :随着DeepResearch智能体为求解复杂问题而收集更多信息,其单一上下文架构在处理和推理这些信息时却变得越来越低效。
- IterResearch Paradigm
WebResearcher提出IterResearch,重新将深度研究重新定义成具有周期性状态重建的马尔可夫决策过程 (MDP)。如下图所示,IterResearch不是维护一个不断扩展的上下文,而是通过离散的迭代轮次进行研究,每个状态仅包含必要组成部分。IterResearch的核心是使用迭代综合(Iterative Synthesis)和重构(Reconstruction)取代线性累积。

每一轮迭代都在一个聚焦的工作空间 进行,该空间通过一个持续演进的报告保持连续性,同时维持逻辑清晰度。在每一轮,智能体的Workspace 由三个组件构成:① 原始研究问题QUESTION;② 上一轮生成的演进中报告Report_{i-1}(i=1时为空);③ 最近执行的动作Action_{i-1}及其工具响应Tool Response_{i-1}。这种紧凑的状态在保持马尔可夫属性的同时,确保决策所需的所有关键信息得以保留。
为了有效地实现这种迭代范式,我们定义了三个结构化的元信息------Think 、Report 和Action ,由他们指导智能体在每一轮的决策:
Think :智能体的推理过程,分析当前Workspace,评估其先前的行动结果,反思研究进展,并制定下一次行动的计划。
Report :IterResearch范式的核心,代表了智能体不断进化的核心记忆。智能体不再将新发现附加到原始数据,而是与现有知识进行综合,生成一个连贯的、信息密度高的总结摘要。
Action :智能体在当前迭代轮次的具体行动,包含以下两种形式之一:
- Tool Call :与外部环境交互的特定命令,例如调用搜索引擎或代码解释器以收集信息
- Final Answer :当智能体确定它有足够的证据来解决初始问题时生成的终止行为,以结束深度研究过程。
IterResearch通过"迭代优化"取代"单上下文积累",利用固定大小的状态空间和周期性报告生成,从根本上解决了Mono-textual范式中"上下文膨胀"导致的性能衰退问题,进而在理论上实现了无限制的深度研究。
- ReSum Paradigm
通义团队的另一项研究为解决Mono-contextual范式的上下文窗口限制问题提出了ReSum Paradigm,一种通过定期上下文总结实现无限探索 的新范式。如下图所示,ReSum将不断增长的交互历史转换为紧凑的推理状态,在绕过上下文约束的同时保持对先前发现的认知。

ReSum范式的核心思想是在上下文限制超出之前 将不断增长的交互历史转换为紧凑的推理状态。ReSum不是附加每次交互,而是定期将对话压缩为结构化摘要 ,并从这些状态恢复探索,使代理能够在没有上下文约束的情况下保持对先前发现的认知。通过这种方式,ReSum只需对ReAct进行最小修改即可实现长周期推理,避免架构复杂性,同时保持简单性、效率和现有智能体的无缝兼容性。
ReSum利用现成的LLM作为总结工具,但通用LLM尤其是较小的模型,往往难以在网络搜索上下文中有效总结对话。因此,ReSum使用从强大的开源模型通过知识蒸馏收集的<Conversation,Summary> pairs来微调Qwen3-30B-A3B-Thinking以提升总结能力,得到总结模型ReSumTool-30B 。该模型用于从冗长的交互中提取关键线索和证据,识别信息缺口,并突出下一步方向。

- WebWeaver架构
大语言模型在许多明确任务上表现出色,但在处理开放式的深度研究(Open-Ended Deep Research,OEDR)问题时却常常力不从心。传统的开放AI智能体在做DeepResearch任务时有两种方式:
搜索后生成 :即先收集所有可能的信息,然后一次性生成报告。这种方法由于缺乏中中间的结构化过程,生成的内容往往杂乱无章、连贯性差。
静态大纲引导搜索 :先制定一个固定的大纲,再按图索骥地搜集材料。该方法的问题时无法根据搜索中的新发现、新视角进行动态调整,极大地限制了研究的深度和广度。
上述两种方法面临着一个共同的技术挑战:长文本生成的"中间丢失(Lost in the Middle)"问题 。该问题表现为:当模型需要处理极长的上下文(例如超过10w个tokens的材料)并一次性生成超长报告(超过2w个tokens)时,模型很难有效分配注意力,导致位于上下文中间部分的关键信息被忽略,从而产生事实错误或幻觉(Hallucinaton)。
为了解决上述问题,通义实验室提出了WebWeaver的双智能体(Dual-Agent)框架,其核心思想是让AI像人类一样研究:动态地搜索、优化大纲,并分部分、有重点地撰写报告。WebWeaver则将OEDR任务定义为一个由规划(Planing) 和写作(Writing) 两阶段组成的、需要多步决策的过程。采用ReAct框架,让智能体在"Thought-Action-Observation"的循环中迭代地进行搜索和大纲优化,最终基于优化后的大纲进行分层次、聚焦的写作。下图对比了不同方法对应的DeepResearch智能体架构:

由上图可以看出WebWeaver的核心是"2个Agent + 1个记忆库":规划者(Planner) 、写作者(Writer) 和记忆库(Memory Bank) 。三者的主要作用如下:
- 规划者(Planner):动态研究循环
- 证据获取(Evidence Acquisition)
- Planner根据当前的知识缺口提出搜索查询
- 根据URL解析出的内容生成一个与查询相关的摘要 ,反馈给Planner以指导后续搜索
- 提取可验证的、详细的源数据 ,存入一个结构化的记忆库 中
- 大纲优化(Outline Optimization)
- Planner在获取新发现后不断地回顾和优化大纲
- 在优化后的大纲中为每个部分添加引用(Citations) ,以直接链接到记忆库中具体的证据ID
- 直到Planner认为大纲足够全面、证据足够充分,才会出发终止动作。
- 记忆库(Memory Bank):上下文管理的核心
- 不再将所有的原始网页内容都塞进LLM的上下文窗口
- 只保留摘要供Planner决策,并将原始内容存入记忆库
- 写作阶段,Writer根据需要,通过引用ID从记忆库中精准检索 出相关的原始证据
- 极大地减轻了模型的上下文压力,是避免"中间丢失"和"上下文干扰(Contextual Bleeding)"的关键设计
- 写作者(Writer):分层检索与写作
- Planner规划阶段结束,会给Writer提供一个结构清晰、且每个部分都标注了引用来源的详细大纲
- Writer的行动空间包括 检索(Retrieval) 、撰写(Write) 和 终止(Terminate) 。写作过程是分层的、循序渐进的:
- 识别子任务 :例如"现在开始写第一小节"
- 精准检索 :根据该小节在大纲中的应用ID,从记忆库中只检索出与之相关的证据
- 内部推理(Think) :关键步骤,Writer会分析检索到的证据,进行内部思考,合成关键见解,并规划该小节的叙述结构。这超越了简单的摘要,是真正合成的开始。
- 撰写(Write) :将思考的结果转化为文字,用<write>标签输出。
- 上下文清理 :每完成一个小节后,其对应的原始信息会从当前的上下文窗口中被显式地清除 ,只留下一个占位符。保证Writer在处理下一部分时,注意力能够完全聚焦,有效防止了不同章节建信息的互相干扰。
Planner和Writer分工明确,协同工作,完美模拟了人类的研究与写作流程。下图展示了WebWeaver的工作流程,左图所示:Planner首先通过搜索工具迭代搜索证据,并持续优化大纲,直至输出一份全面且附有引用依据的最终大纲;右图所示:Writer根据大纲中标注的引用,检索相关证据,执行层次化及注意力引导式的写作任务。


2.2.2 Agentic Model训练
- Training Paradigm
现状: 为LLM赋予智能体能力的主流方法是后训练,即在通用大语言模型的基础上使用拒绝采样微调RFT 和强化学习RL 来学习多步推理和工具使用能力。然而当前方法在智能体对齐方面效果有限,即使领先的开源智能体模型如GLM-4.5、DeepSeek-V3.1等也与OpenAI的DeepResearch存在显著的性能差距。
洞察: 智能体基座模型缺失,通用大语言模型缺乏智能体所需的专有能力。SFT和RL都依赖于有限的确定性监督信号,这些信号将模型锁定为复制特定的行为模式,而非发展灵活的决策能力,导致后训练效果受限。
创新: 通义研究团队提出智能体持续预训练(Agentic CPT) 作为解决方案,为通用大语言模型注入智能体能力,其核心目标是提供Pre-aligned Agentic Foundation Model ,自然支持智能体行为以提升下游微调的有效性,解决了同时学习能力与对齐的优化冲突。
传统Agentic Model训练范式和Agentic CPT训练范式的差异在于:是否通过Agentic CPT获取具备复杂推理和工具使用能力的智能体基座模型 ,如下图所示:

- Agentic CPT
由上图可以看出,Agentic CPT被分为两个阶段:
|-------------|-------------------------------|-----------|------------------------------|
| 阶段 | 训练数据量 | 上下文长度 | 功能 |
| Stage 1 | 200B tokens FAS数据和简短HAS数据 | 32K | 使模型具备工具调用 和多步推理 等基础能 |
| Stage 2 | 100B tokens HAS数据 | 128K | 使模型理解动作空间 和进行长期规划 |

- Post-Training
Agentic Model的后训练包含拒绝采样微调(Rejection Sampling Fine-Tuning,RFT)和强化学习(Reinforcement Learning,RL)两个阶段。在通义团队的Agentic系列模型后训练的过程中,需要注意不同DeepResearch范式对训练过程的影响。
|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Mono-contextual Paradigm |
| 数据格式 * ReAct形式,所有轮次的"Thought-Action-Observation"等内容均在模型的上下文窗口中 * question + <think></think> | <tool_call></tool_call> | <tool_response></tool_response> | <answer></answer> |
| RFT阶段 * 损失计算:重点在于思考过程Thought和动作Action,掩盖Observation部分的loss来训练模型 |
| RL阶段 * RL算法:DAPO、DUPO 、GRPO、GSPO * 奖励函数:由格式分数和答案准确性分数组成,Reward = 0.1 * format_score + 0.9 * answer_score |
|-------------------------------------------------------------------------------------------------------|
| Iterative Deep-Research Paradigm |
| 数据格式 * Iterative形式,模型上下文中仅包含精简后的"Think-Report-Action" |
| RFT阶段 * 损失计算:同Mono-contextual Paradigm |
| RL阶段 * RL算法:GSPO;使用最小损失降采样(Minimal-Loss Downsampling) 优化采样效率 * 奖励函数:同Mono-contextual Paradigm |
|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| ReSum Paradigm |
| 数据格式 * 周期内的数据类似Mono-contextual Paradigm的ReAct格式
* question + (<summary></summary>|)<think></think>|<tool_call></tool_call>|<tool_response></tool_response>| <answer></answer> |
| 无RFT冷启动 |
| RL阶段 * RL算法:ReSum-GRPO * 奖励函数:仅答案正确性分数,不包含格式分数 |
++++训练数据样例++++

下面是对通义团队提出的关键RL训练算法和数据使用效率优化算法进行解读:
(1)DUPO
智能体的强化学习时,由于需要与环境(工具响应)进行多轮交互,其训练过程相比传统推理任务显著缓慢。DAPO算法通过动态采样(Dynamic Sampling)机制,筛选出完全正确或错误的轨迹,并以新生成的轨迹补全批次容量,从而提升数据质量。然而,该方法要求对批次中的不同样本依次执行 rollout,这种顺序处理方式进一步加剧了智能体强化学习训练速度缓慢的问题。
- 数据采样策略: 复制采样策略优化(Duplicating Sampling Policy Optimization,DUPO)算法引入两种策略来解决上述问题:
- 训练前:过滤掉过于简单的case(所有8个rollout均正确的)
- 训练中:通过复制batch内标准差非零的样本 来补充被过滤掉的样本从而填满batch size,而不是使用Padding策略
其中标准差非零是指并非所有rollout都完全正确或完全不正确,即部分rollout成功,部分失败,存在标准差。
- 损失计算: 与RFT一样屏蔽掉Observation
- 奖励计算: Reward = 0.1 * 格式分数 + 0.9 * 答案分数
DUPO训练的目标函数如下:

其中(q, y)为QA对,importance sampling ratio和 advantadge的计算公式如下:

(2)ReSum-GRPO
ReSum范式通过将 原始用户查询q 和 摘要s 结合起来,创建了一种新的查询类型:q' = (q, s) ,训练数据格式为:QUESTION + <summary>...</summary> 。ReAct标准范式训练数据都是从QUESTION出发,然后think、tool_call及tool_response持续迭代循环。ReSum范式的第一步也遵循上述格式,但当触发总结时,下一轮的训练数据格式变成从QUESTION + <summary>...</summary>出发,然后再think、tool_call及tool_response持续迭代循环,即周期内上下文持续积累,当上下文积累到某个上限时通过调用ReSumTool-30B模型进行总结。
ReSum-GRPO的关键:
- 轨迹分割(Trajectory Segmentation) :当ReSum范式触发总结时,自然地将长轨迹分割成多个episode。一个经历了K次总结事件的完整ReSum轨迹,被划分为K+1个段:

每个段都是一个单独的训练episode,输入为:q_{i-1},输出为:

- 奖励计算(Reward Computation) :
- 不为每个分段设计奖励,统一使用trajectory-level奖励信号,使用LLM-as-Judge评估:R(a, a_T)∈{0, 1}
- 不施加格式奖励,仅依赖答案准确性来提供更面向结果的信号。但会在每个Generating Step执行格式检查,如果智能体未能遵循特定标记(例如:<think></think>),则轨迹终止并将奖励设置为0,隐式地引导智能体有效地遵循所需格式
- 集成GRPO(GRPO Integration) :

-
- ReSum-RL仅对rollout collection过程进行改进,通过在摘要处进行分段,并将奖励信号调整为trajectory-level的答案准确性。能够与多种RL算法兼容,ReSum的研究结合GRPO进行RL训练得到ReSum-GRPO,如上图所示
- ReSum-GRPO的目标函数:

ReSum-GRPO的优势:
- 有效利用摘要从压缩状态成功推理;策略性信息收集,引导智能体获取能产生高质量摘要的关键证据
- ReSum-GRPO仅通过分段轨迹处理对长轨迹进行优化,对短轨迹的处理方式与标准GRPO保持一致。在保持训练效率的同时,也保留了智能体固有的推理模式。
(3)最小损失降采样
Minimal-Loss Downsampling算法是WebResearcher研究中提出的RL训练数据效率优化算法。IterResearch Paradigm的关键优势:每个轨迹被自然地分解为多个训练样本(每次迭代产生一个),而Mono-contextual Paradigm方法每个轨迹只能产生一个样本。单次rollout的样本数量计算方式如下图所示:

虽然训练数据增多,但是每次rollout得到的轨迹长度是可变的,因此会导致不同批次的样本总数不同,这与固定批次大小的分布式训练要求相冲突。为了解决这个问题,并保证较高的数据利用率,将整个训练样本的数量减少到不超过原始计数的数据并行(DP)大小的最大倍数:

该方法最大限度地减少数据丢失(通常小于1%)并保证了数据在设备之间的均匀分布,保证了分布式训练的稳定性。
2.2.3 数据合成(面向互联网数据,有兴趣可自行学习,不做讲解)
多步推理能力 和 工具使用能力 是Agentic Model要构建的核心能力,下面对继续预训练和后训练两个阶段的训练数据合成任务进行探索及归纳借鉴。
- Agentic CPT Data
Agentic CPT的成功极度依赖于海量、高质量的智能体行为数据,通义实验室提出了两种可规模化、低成本的数据合成方法:
- First-order Action Synthesis(FAS)
无监督信号的一阶动作合成,该方法完全不需要调用昂贵的商业API,仅利用多样化的数据源合成数据。
-
- 知识到问题的转换(构建多样化上下文)

-
-
- 将网页等静态知识,以一种"实体-知识陈述"的形式组织成一个开放的"世界知识库"
- 随机采样实体簇及其知识,合成涵盖事实检索、数值计算、多跳推理等多种风格的问题
- 上述过程将静态知识转化为需要主动信息检索和工具使用的动态问题解决场景
- 规划动作合成(Planning Action Synthesis)
-

-
-
- QA对本身不能构成完整的智能体训练数据,需要相应的推理过程和动作序列
- 对每个问题,使用LLM生成K中不同的初步问题分析和第一步的行动预测(调用哪个工具或直接回答)
- 关键洞察:第一步推理的质量与最终任务完成率高度相关,通过为每个问题生成多个可能的"第一反应",极大地扩展了模型对每个行动空间的探索
-
推理工作合成(Reasoning Action Synthesis)
-

- 两阶段推理数据合成,都禁止调用外部工具
- Step 1:要求LLM不调用外部工具,基于问题先生成一个初步答案
- Step 2:基于必要事实,对上一步的答案进行修正
-
- Higher-order Action Synthesis(HAS)
有监督信号的高阶动作合成,后训练(拒绝采样、RL)会产生大量被丢弃的次优轨迹,包含了宝贵的学习信号,HAS旨在高效复用这些轨迹:

- 轨迹重用挑战(Trajectory-Reuse Challenging)
- 基于trajectory-level的评估机制导致数据浪费,并且延迟反馈、效率低下
- 中间步骤可能是正确的,step-level的评估理论更优,但稳定复用次优trajectory存在问题
- 洞察(Insights)
- 高质量的上下文:trajectory的每一步都包含原始问题、先前步骤及真实反馈,存在多个可行的推理-动作选项
- trajectory-level的监督信号导致模型学会模仿序列,而非对关键步骤进行决策
- HAS Solution
- Step-level Scaling:对于轨迹的每一步,基于条件上下文使用LLM生成N个替代的"thought and invocation"候选方案。将原始步骤与这些候选方案混合打乱,形成新的决策选项集
- Contrastive Decision-Action Synthesis:将整个轨迹改写成一种渐进式决策文本,在每一步,明确列出所有选项,并声明"I will choose option N_k",紧接着给出真实的环境反馈,最后标注这一步的决策是否正确。这样,一条轨迹被转化为富含决策信号的高质量数据。
- Post-Training Data
上面的章节中对DeepResearch系统范式及训练范式进行了介绍,该小节主要针对不同范式进行后训练所需的数据加以说明:以DeepResearcher研究为例介绍互联网公开数据如何被转换复杂性高的问答对和训练轨迹。
早期WebSailor研究根据信息检索任务的内在不确定性及降低不确定性的复杂性,将任务困难等级进行划分:
- Level 1 :任务具有较低且容易消除的不确定性;通过模型内部知识或直接网络搜索即可解决
- Level 2 :任务初始不确定性高,但存在清晰的解决路径;如多跳问答,通过固定序列的推理步骤可系统性地降低不确定性
- Level 3 :任务不确定性高且难以消除。实体以复杂、突发的方式耦合,缺乏预定义的推理路径,需要创造性探索和新颖的推理模式。

(1)DeepResearcher的QA数据合成 WebFrontier框架分为三个阶段:
- Stage 1:种子问答(QA)生成
- Summary Agent :对原始语料进行预处理,对内容进行释义,去除人为制造用于标记的tag(如HTML标签),并将文本提炼成信息密集的Text Chunks
- Composite Units :由主题相关的Text Chunks复合而成
- ItemWriter Agent :基于Composite Units在不使用工具的情况下生成种子QA对
- Stage 2:迭代复杂性升级(目标:获得适合复杂研究的问题)
- Tool-Augmented ItemWriter Agent :为ItemWriter Agent配备一套外部工具,包含通用Web Search、学术文献搜索、网页访问浏览、Python代码解释器
- 对Stage 1中生成的种子QA对,迭代地优化问题和答案 ,以增加他们的认知复杂性并将他们的范围扩展到原始上下文之外。迭代过程的四个关键操作:
- 知识扩展:查询外部知识以扩宽问题的范围
- 概念抽象:分析知识以提炼更高层次的原则并识别不同领域的关系
- 事实基础:通过多源交叉验证,以提高答案的准确性和深度
- 公式计算:利用Python环境解决需要定量计算或逻辑模拟的问题
- 迭代过程创造了一个良性循环,其中在一次迭代中生成的更复杂的QA对成为下一次迭代地种子,使得任务复杂性能够得到控制和系统性升级
- Stage 3:严格的质量控制
- QuestionSolver Agent: 不使用工具回答问题,过滤回答正确的QA
- Tool-Augmented QuestionSolver Agent :保留使用工具回答正确的QA,否则需要人类专家审核
- SimilarityScore Agent :过滤重复QA

(2)WebFrontier的推理轨迹生成(Reasoning Trajectory Generation)主要参考WebSailor的方案,具体流程如下图所示:

这种方式生成的 Level 3 任务非常具有挑战性,即使是强大的专有模型(如 o3)也可能需要多达40次工具调用才能解决,并且人类研究员在常规时间限制内也难以解决,因为它们缺乏明确的搜索起点,需要进行广泛的非线性探索。
- DeepResearch落地实践总结
3.1 总结
通义实验室的研究主要围绕 Agentic Model训练 (包含数据合成及训练范式)和DeepResearch任务范式 两大方向。在具体应用落地时,总结如下:

3.2 DeepResearch实践探索
通义团队提出了IterResearch Paradigm等缓解上下文长度限制的任务范式,但并未开源DeepResearch的推理范式代码,依然无法构建企业级可落地的DeepResearch应用。
通过对DeepResearch相关研究的调研及落地实践探索,字节的DeerFlow(++++https://github.com/bytedance/deer-flow++++ )开源项目对构建企业级DeepResearch应用进行二次开发具有良好的支持能力,目前已经得到本地验证,要达到生产级还需要进行如下二次开发任务:
|-------------|-----------------------------------------------------------------|----------|---------|
| 二开任务 | 任务描述 | 是否必要 | 优先级 |
| 联网搜索接口适配 | 该开源项目仅支持TavilySearch的联网搜索接口,有一定的耦合度,需要解耦适配顺丰内部的联网搜索API | 必要 | 高 |
| RAGFlow接口适配 | 目前该框架已经支持RAGFlow接入,输出需要对齐二开的RAGFlow | 必要 | 高 |
| 代码执行器独立部署 | DeerFlow目前仅支持在本机环境上支持执行LLM生成的代码,安全性较低,需要独立部署Docker容器构建隔离的代码执行环境 | 非必要 | 中 |
| token超长问题 | 已经支持对超长上下文进行压缩,测试过程中发现有bug,需要优化 | 必要 | 高 |
| 长期记忆数据库 | 持久化存储历史研究过程 | 非必要 | 中 |
PS:DeerFlow的DeepResearch智能体架构如下:

参考文献
- Xu, Renjun, and Jingwen Peng. "A Comprehensive Survey of Deep Research: Systems, Methodologies, and Applications." arXiv preprint arXiv:2506.12594 (2025).
- Wu, Jialong, et al. "Webwalker: Benchmarking llms in web traversal." arXiv preprint arXiv:2501.07572 (2025).
- Wu, Jialong, et al. "Webdancer: Towards autonomous information seeking agency." arXiv preprint arXiv:2505.22648 (2025).
- Li, Kuan, et al. "WebSailor: Navigating Super-human Reasoning for Web Agent." arXiv preprint arXiv:2507.02592 (2025).
- Tao, Zhengwei, et al. "Webshaper: Agentically data synthesizing via information-seeking formalization." arXiv preprint arXiv:2507.15061 (2025).
- Qiao, Zile, et al. "Webresearcher: Unleashing unbounded reasoning capability in long-horizon agents." arXiv preprint arXiv:2509.13309 (2025).
- Li, Zijian, et al. "WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research." arXiv preprint arXiv:2509.13312 (2025).
- Wu, Xixi, et al. "ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization." arXiv preprint arXiv:2509.13313 (2025).
- Li, Kuan, et al. "WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning." arXiv preprint arXiv:2509.13305 (2025).
- Su, Liangcai, et al. "Scaling agents via continual pre-training." arXiv preprint arXiv:2509.13310 (2025).