OpenSeeker-v2:仅用 1w 条数据 + SFT,训练 Deep Research 达到 SOTA

一句话介绍

所有人都在堆 CPT、SFT、RL 三段式训练,而本文选择把全部筹码押在数据合成上:只用 1.06w 条高难度轨迹和一次纯 SFT,就在四个主流 deep search 榜单上反超阿里通义 DeepResearch 等工业级模型


一、动机

deep research 已经成为大模型 agent 的核心能力,市面上大多数 Agent 产品都会实现这一功能。它要求模型像研究员一样自己规划查询、反复调用工具、跨多个来源做交叉对照,最后给出有依据的回答

但训练一个能打的搜索 agent,门槛相对较高。下面是几个代表性工作的训练 pipeline:

工作 训练范式 团队
Tongyi DeepResearch CPT + SFT + RL 阿里通义
RedSearcher CPT + SFT + RL 小红书
WebSailor-V2 SFT + RL 阿里

CPT(继续预训练)这一步本身就要在数百 B token 的网页语料上从头训练,几十张 H100 跑几周;后面叠 RL,环境搭建、reward 设计、稳定性调优,每一步都是工程黑洞,学术界几乎无法构造出生产级应用

OpenSeeker-v2 想问的是一个非常朴素但少有人认真回答的问题:

这套 "重型工业流水线" 真的是必要的吗?还是我们只是没认真挖过 "数据质量" 这一侧的潜力?


二、核心赌注

工程实践里大家都默认一个 "训练范式阶梯":监督微调(SFT)门槛最低、工程量最小,是首选;只有当 SFT 搞不定时,才不得已往上爬到 CPT 或者 RL。deep search 长期被归类到 "SFT 必然搞不定" 的硬场景里------做 agent 嘛,怎么能没有 RL

OpenSeeker-v2 的核心赌注一句话:

真正稀缺的不是算力,也不是训练阶段的复杂度,而是数据本身的难度和信息密度。如果一开始喂给 SFT 的数据,就已经携带了 "长程检索 + 多工具协同" 的范式信号,那 CPT 和 RL 这两步,至少在搜索 agent 这条线上,可能并没有那么不可替代

整个工作几乎没碰训练这一侧,所有功夫都花在了数据合成 pipeline 上


三、实现过程

OpenSeeker-v2 的方法部分朴素得让人怀疑

3.1 扩大知识图谱

deep search 的训练数据通常从一个知识图谱出发,每个节点是一个事实或文档,节点之间有语义关联。原来的合成流程会在每个种子节点周围采一个小子图,然后让 LLM 基于这块子图编一个 query

子图小,意味着相关线索就那几条,模型不需要绕远路就能拼出答案。OpenSeeker-v2 大幅提高了扩展预算,使合成出来的 query 在结构上就强制要求多跳:必须跨越多个节点、做多次交叉对照才能闭环

多跳数据合成本身不是什么新鲜技术,相关工作里几乎是个标配

3.2 扩展工具集

参考 MiroThinker 的做法,把 agent 可用的工具集扩到更大、更细分。原来 agent 可能只有 search、web_browse 两三个工具,能选的策略很单一;扩展后包含学术搜索、跨域搜索、URL 抓取、代码执行等等

工具多了之后,模型在轨迹里会自然出现 "先用 A 工具拉一批结果 → B 工具精读 → C 工具验算" 这种组合式调用

3.3 更严格的过滤

第三个改动是作者最看重的:设定一个工具调用步数阈值,任何步数低于它的样本都被舍弃

这一刀为什么关键?合成 pipeline 里简单题永远占大头,因为 LLM 编 query 时倾向于走捷径,工具调用 1~2 步就能拿到答案的占比可能高达 40~60%。如果不过滤,这些水题会稀释整个训练集的难度,让 SFT 信号偏向 "快速查 → 直接答",长程检索的耐力反而练不出来


四、实验结果

4.1 训练设置

为了把 "数据质量决定一切" 这个赌注落实,训练这一侧故意做得很克制:

  • 基模:Qwen3-30B-A3B-Thinking-2507(30B 总参,3B 激活的 MoE)
  • 范式:标准 ReAct(Reasoning → Action → Observation 循环)
  • 数据量:10.6k 条精选高难度轨迹
  • 训练:单次 SFT,没有 RL,没有 CPT,连超参数 sweep 都没做
  • 上下文:256k 窗口,单条轨迹最多 200 次工具调用

整个训练过程基本就是:给一个开源大模型,喂一份小而精的数据,按标准流程跑一次 SFT

4.2 四个 benchmark 全面 SOTA

在 BrowseComp、BrowseComp-ZH、Humanity's Last Exam(HLE)、xbench 这四个代表性 deep search 榜单上,OpenSeeker-v2-30B-SFT 拿到了所有 30B 量级 ReAct Agent 中最强的成绩:

Benchmark OpenSeeker-v2 (SFT only) Tongyi DeepResearch (CPT+SFT+RL) 差距
BrowseComp 46.0% 43.4% +2.6
BrowseComp-ZH 58.1% 46.7% +11.4
HLE 34.6% 32.9% +1.7
xbench 78.0% 75.0% +3.0

更进一步,OpenSeeker-v2 不止赢了同量级。在 BrowseComp 等多个 benchmark 上,它也压过了 Claude-4.5-Sonnet、DeepSeek-V3.1-671B、GLM-4.6-357B、Minimax-M2-230B 这些参数量大得多的开源/闭源模型 ------ 以 30B 的体量打掉一群百亿到千亿的对手

4.3 对比 OpenSeeker-v1

OpenSeeker-v2 的对照组是它自己的前身 v1,模型规模、训练范式(SFT-only)都一致,唯一变量就是数据合成 pipeline:

  • BrowseComp: 29.5 → 46.0(+16.5)
  • BrowseComp-ZH: 48.4 → 58.1(+9.7)
  • xbench: 74.0 → 78.0(+4.0)

这是检验 "数据真的是瓶颈" 最干净的对照实验

4.4 数据难度

作者还给出了一个非常直接的指标 ------ 训练轨迹的平均工具调用步数:

  • OpenSeeker-v2:64.67 步
  • OpenSeeker-v1:46.97 步
  • RedSearcher:36.01 步

也就是说,OpenSeeker-v2 的训练数据每条都要执行 60 多次工具调用才能闭环。这种长度的轨迹本身就是 "必须长程推理 + 多次回滚 + 复杂工具组合" 的硬证据。模型在这种数据上学到的,不是某种 pattern matching 的快速答题套路,而是 "扛住不确定性继续搜下去" 的耐力


五、启发

OpenSeeker-v2 给社区最值得带走的,不是某个具体技术,而是一次有力的反例

过去两年,deep search agent 这条线一直在往"流程越来越长、阶段越来越多"的方向走------CPT 是必备项、RL 是新军备竞赛、reward modeling 又是另一个领域。整个行业默认了 "要做强 agent 就必须 CPT + SFT + RL"

OpenSeeker-v2 没有否定 RL 或 CPT 的价值(作者的态度其实非常克制),但它认认真真撬了一下这个共识的 "不可替代性" ------ 当训练数据本身就携带了足够强、足够多样的范式信号,SFT 这一道工序就足以把搜索 agent 推到不错的高度

往更大的图景看,这其实是延续了一个一直在 LLM 时代被反复验证的精神:

  • LIMA 用 1k 高质量指令打过几十万条数据的 SFT
  • Phi 系列用合成的高密度推理数据训出小模型的强推理
  • DeepSeek-R1 的成功也很大程度来自 "长 CoT 数据怎么造" 这件事被想明白

OpenSeeker-v2 把 "数据胜算力" 的这个传承,延伸到了 deep search agent 这条线上。它告诉我们:真正稀缺的可能既不是算力也不是训练技巧,而是 "知道什么是好的训练样本" 这个判断力

相关推荐
愚公搬代码1 小时前
【愚公系列】《AI漫剧创作一本通》024-Al 漫剧视频生成(AI漫剧视频生成工具)
人工智能·音视频
__log1 小时前
AI前端工程化实战指南:10大核心场景的“解题思路“与“避坑指南“
前端·人工智能
翼达口香糖1 小时前
当大模型吃掉你的App,从高德开放平台看AI服务重构
大数据·人工智能·深度学习·语言模型·数据分析·边缘计算
lizhihai_991 小时前
股市学习心得-量比的作用
大数据·人工智能·学习
晓蓝WQuiet1 小时前
opencv从入门到。。。。
人工智能·opencv·计算机视觉
楚灵魈1 小时前
[SKILL]从零开始的Arch Linux安装工作流程
linux·人工智能
薛定猫AI1 小时前
【深度解析】Qwen 3.6 vs Gemma 4:本地大模型时代,如何选对“日常开发模型”
人工智能·状态模式
Biomamba生信基地1 小时前
视频回放:《Frontiers In Immunology》生信文章一作专访
机器学习·生物信息学·泛凋亡
陈天伟教授1 小时前
人生的力量来源何处?
人工智能·学习