阿里WebDancer：自主信息搜索Agent

摘要

随着大语言模型（LLMs）和大推理模型（LRMs）的能力不断提升，构建具备长期任务规划与复杂信息检索能力的智能体Agent成为关键研究方向。阿里通义实验室提出WebDancer------一套从数据构建到训练策略的端到端信息检索智能体构建范式，支持多轮、多工具交互与长程推理。该系统在 GAIA与 WebWalkerQA 等复杂多跳信息检索任务中表现优异，验证其方法有效性与可扩展性。

论文标题：WebDancer: Towards Autonomous Information Seeking Agency
论文链接：arxiv.org/abs/2505.22...
发表单位：阿里-通义实验室

要点总结

WebDancer 提供了构建自主信息检索智能体的系统路径，技术要点如下：

端到端智能体构建范式：提出四阶段流程，1）数据构造、2）轨迹采样、3）冷启动微调与 4）强化学习泛化；
高质量 QA 数据集自动合成：设计 CRAWLQA 与 E2HQA 两种合成策略，分别针对结构化网页与逐步复杂化问题；
推理轨迹采样与建模策略：结合 LLM 与 LRM，采集 Short-CoT 与 Long-CoT 轨迹，覆盖短链与长链推理路径；
动态采样强化学习算法 DAPO：优化采样与奖励机制，提升策略鲁棒性与数据效率，支持多轮多工具智能行为。

1 引言

WebDancer 的核心目标是构建能够在真实 Web 环境中实现自主搜索、点击与读取，并完成复杂推理任务的智能体系统。其具备以下三项能力：

在动态 Web 环境中自主获取与处理信息；
将复杂问题逐步拆解为子任务，并依赖外部工具交错执行；
在面对未知任务与长程推理时具备良好的泛化能力。

构建这样的智能体面临多重挑战，包括：1）数据稀缺：真实世界多跳推理与信息操作任务的数据集极为有限；2）训练困难：多轮交互 + 多工具调用会造成 RL 训练不稳定；3）泛化困难：代理模型在真实动态 Web 环境中难以应对变化和长程目标。

2 方法

WebDancer 的构建流程分为四个阶段：

Step 1：构建高质量 QA 数据对

如图1所示，使用两种方式构建数据集：

CRAWLQA：模拟人类浏览行为，爬取 Arxiv、GitHub、Wiki 等专业网站的结构化页面，系统点击子链接，采集子页面内容，调用 GPT-4o 基于 COUNT、MULTI-HOP 等设定类型合成问答；
E2HQA：从 SimpleQA 风格出发，通过迭代搜索与问题改写，逐步提高问题复杂度，每轮引入新的子问题构建步骤，使原问题转化为需要长链推理的新问题。

Step 2：采样高质量推理轨迹

基于 ReAct 框架，采集 Thought-Action-Observation 的完整交互轨迹；
使用 GPT-4o 生成 Short-CoT，QwQ-Plus 生成 Long-CoT；
对所有轨迹执行 rejection sampling，并通过合法性、正确性与质量三重过滤确保样本可用。

Step 3：监督微调实现冷启动

采用结构化格式（、<tool_call>、<tool_response>、）标注训练数据；训练策略模型，将工具调用输出部分（Observation）进行MASK，防止模型在学习早期被外部信息干扰。

Step 4：强化学习实现泛化

使用 DAPO算法优化策略（最大化公式（3））；奖励设计为 0/1 二元打分，考虑格式合法性（score_format）与答案准确性（score_answer），其中正确性分数使用裁判模型（Qwen2.5-72B-Instruct）判定。

3 实验

实验结果

在 GAIA 与 WebWalkerQA 上，WebDancer 显著优于无代理能力的方法；在开源模型中，WebDancer 在 ReAct 框架下性能远超 vanilla ReAct，甚至在某些设置下超越 GPT-4o。

高难度任务测试

在 BrowseComp（英文）和 BrowseComp-zh（中文）数据集上表现稳定，凸显 WebDancer 在跨语言与复杂搜索场景中的适应能力。

长短思维链分析

对于非推理模型，强化学习显著提升回答一致性与 Pass@3 表现；对于推理模型（如 QwQ-Plus），RL 虽提升幅度有限，但明显提升 Cons@3（思维路径一致性）。

4 总结与未来工作

WebDancer提出了一种系统化、端到端的多步信息检索代理构建范式，覆盖从数据构建、轨迹采样、思维建模到策略优化全过程，未来工作可以在以下几个方面开展：

引入更复杂工具（如浏览器模拟器、Python sandbox）以支持开放式环境交互；
拓展至文档级生成与多模态任务，例如网页摘要生成、图文混合搜索等；
优化 RL 稳定性与样本效率，如引入记忆机制、压缩 rollout 成本；
开发混合推理模型（hybrid reasoning agent），支持动态控制推理长度与策略分支。

案例展示

作者在最后附了一个较长的案例展示，案例展示的问题来自于GAIA

问题：我正在研究那些在人们将其作为宠物饲养后被释放，并最终成为入侵物种的生物。有一种鱼类因为成为电影《海底总动员》的主角而在宠物市场上广受欢迎。根据 USGS 的数据，该鱼在 2020 年之前在哪些地方作为非原生物种被发现？我需要答案以五位数邮政编码（ZIP code）的形式呈现，若有多个地点，用逗号分隔。
模型回答：模型进行多次搜索和访问，这里进行了多工具调用，包括search进行搜索引擎查询，visit访问特定网页链接，获取文本。