阿里WebDancer:自主信息搜索Agent

摘要

随着大语言模型(LLMs)和大推理模型(LRMs)的能力不断提升,构建具备长期任务规划与复杂信息检索能力的智能体Agent成为关键研究方向。阿里通义实验室提出WebDancer------一套从数据构建到训练策略的​端到端信息检索智能体构建范式​,支持多轮、多工具交互与长程推理。该系统在 GAIA与 WebWalkerQA 等复杂多跳信息检索任务中表现优异,验证其方法有效性与可扩展性。

  • 论文标题:WebDancer: Towards Autonomous Information Seeking Agency
  • 论文链接:arxiv.org/abs/2505.22...
  • 发表单位:阿里-通义实验室

要点总结

WebDancer 提供了构建自主信息检索智能体的系统路径,技术要点如下:

  • 端到端智能体构建范式:提出四阶段流程,1)数据构造、2)轨迹采样、3)冷启动微调与 4)强化学习泛化;
  • 高质量 QA 数据集自动合成:设计 CRAWLQA 与 E2HQA 两种合成策略,分别针对结构化网页与逐步复杂化问题;
  • 推理轨迹采样与建模策略:结合 LLM 与 LRM,采集 Short-CoT 与 Long-CoT 轨迹,覆盖短链与长链推理路径;
  • 动态采样强化学习算法 DAPO:优化采样与奖励机制,提升策略鲁棒性与数据效率,支持多轮多工具智能行为。

1 引言

WebDancer 的核心目标是构建能够在真实 Web 环境中实现自主搜索、点击与读取,并完成复杂推理任务的智能体系统。其具备以下三项能力:

  • 在动态 Web 环境中自主获取与处理信息;
  • 将复杂问题逐步拆解为子任务,并依赖外部工具交错执行;
  • 在面对未知任务与长程推理时具备良好的泛化能力。

构建这样的智能体面临多重挑战,包括:1)数据稀缺:真实世界多跳推理与信息操作任务的数据集极为有限;2)训练困难:多轮交互 + 多工具调用会造成 RL 训练不稳定;3)泛化困难:代理模型在真实动态 Web 环境中难以应对变化和长程目标。

2 方法

WebDancer 的构建流程分为四个阶段:

Step 1:构建高质量 QA 数据对

如图1所示,使用两种方式构建数据集:

  • CRAWLQA:模拟人类浏览行为,爬取 Arxiv、GitHub、Wiki 等专业网站的结构化页面,系统点击子链接,采集子页面内容,调用 GPT-4o 基于 COUNT、MULTI-HOP 等设定类型合成问答;
  • E2HQA:从 SimpleQA 风格出发,通过迭代搜索与问题改写,逐步提高问题复杂度,每轮引入新的子问题构建步骤,使原问题转化为需要长链推理的新问题。

Step 2:采样高质量推理轨迹

  • 基于 ReAct 框架,采集 Thought-Action-Observation 的完整交互轨迹;
  • 使用 GPT-4o 生成 Short-CoT,QwQ-Plus 生成 Long-CoT;
  • 对所有轨迹执行 rejection sampling,并通过合法性、正确性与质量三重过滤确保样本可用。

Step 3:监督微调实现冷启动

采用结构化格式(、<tool_call>、<tool_response>、)标注训练数据; 训练策略模型,将工具调用输出部分(Observation)进行MASK,防止模型在学习早期被外部信息干扰。

Step 4:强化学习实现泛化

使用 DAPO算法优化策略(最大化公式(3)); 奖励设计为 0/1 二元打分,考虑格式合法性(score_format)与答案准确性(score_answer),其中正确性分数使用裁判模型(Qwen2.5-72B-Instruct)判定。

3 实验

实验结果

在 GAIA 与 WebWalkerQA 上,WebDancer 显著优于无代理能力的方法; 在开源模型中,WebDancer 在 ReAct 框架下性能远超 vanilla ReAct,甚至在某些设置下超越 GPT-4o。

高难度任务测试

在 BrowseComp(英文) 和 BrowseComp-zh(中文) 数据集上表现稳定,凸显 WebDancer 在跨语言与复杂搜索场景中的适应能力。

长短思维链分析

对于非推理模型,强化学习显著提升回答一致性与 Pass@3 表现; 对于推理模型(如 QwQ-Plus),RL 虽提升幅度有限,但明显提升 Cons@3(思维路径一致性)。

4 总结与未来工作

WebDancer提出了一种系统化、端到端的多步信息检索代理构建范式,覆盖从数据构建、轨迹采样、思维建模到策略优化全过程,未来工作可以在以下几个方面开展:

  • 引入更复杂工具(如浏览器模拟器、Python sandbox)以支持开放式环境交互;
  • 拓展至文档级生成与多模态任务,例如网页摘要生成、图文混合搜索等;
  • 优化 RL 稳定性与样本效率,如引入记忆机制、压缩 rollout 成本;
  • 开发混合推理模型(hybrid reasoning agent),支持动态控制推理长度与策略分支。

案例展示

作者在最后附了一个较长的案例展示,案例展示的问题来自于GAIA

  • 问题:我正在研究那些在人们将其作为宠物饲养后被释放,并最终成为入侵物种的生物。有一种鱼类因为成为电影《海底总动员》的主角而在宠物市场上广受欢迎。根据 USGS 的数据,该鱼在 2020 年之前在哪些地方作为非原生物种被发现?我需要答案以五位数邮政编码(ZIP code)的形式呈现,若有多个地点,用逗号分隔。

  • 模型回答:模型进行多次搜索和访问,这里进行了多工具调用,包括search进行搜索引擎查询,visit访问特定网页链接,获取文本。

相关推荐
明朝百晓生1 天前
强化学习【Monte Carlo Learning][MC Basic 算法]
人工智能·机器学习
云知谷1 天前
【C++基本功】C++适合做什么,哪些领域适合哪些领域不适合?
c语言·开发语言·c++·人工智能·团队开发
rit84324991 天前
基于MATLAB实现基于距离的离群点检测算法
人工智能·算法·matlab
初学小刘1 天前
深度学习:从图片数据到模型训练(十分类)
人工智能·深度学习
递归不收敛1 天前
大语言模型(LLM)入门笔记:嵌入向量与位置信息
人工智能·笔记·语言模型
之墨_1 天前
【大语言模型】—— 自注意力机制及其变体(交叉注意力、因果注意力、多头注意力)的代码实现
人工智能·语言模型·自然语言处理
摸鱼的老谭1 天前
构建Agent该选Python还是Java ?
java·python·agent
从孑开始1 天前
ManySpeech.MoonshineAsr 使用指南
人工智能·ai·c#·.net·私有化部署·语音识别·onnx·asr·moonshine
涛涛讲AI1 天前
一段音频多段字幕,让音频能够流畅自然对应字幕 AI生成视频,扣子生成剪映视频草稿
人工智能·音视频·语音识别
可触的未来,发芽的智生1 天前
新奇特:黑猫警长的纳米世界,忆阻器与神经网络的智慧
javascript·人工智能·python·神经网络·架构