ECHO:面向智能体强化学习的选择性轮次记忆框架——剪枝执行、溯源学习

ECHO:面向智能体强化学习的选择性轮次记忆框架------剪枝执行、溯源学习

论文原始链接https://arxiv.org/html/2606.31650v1

开源代码地址https://github.com/xiezijun714-lang/Echo

发布信息:arXiv:2606.31650v1 cs.LG,2026-06-30,开源协议CC BY 4.0

摘要

长时序语言智能体需要反复调用工具、积累证据,并在有限上下文窗口约束下完成决策。现有上下文管理方案通过截断远期历史、滚动摘要压缩历史、筛选轻量化记忆状态实现长轨迹推演,但存在两大耦合缺陷:

  1. 随交互轮次增加,历史观测被逐步删除或压缩,策略难以复用细粒度证据;
  2. 原始交互轮次失去索引溯源能力,基于最终结果的强化学习(RL)无法将策略更新与支撑正确答案的证据精准对齐。

本文提出ECHO(选择性轮次记忆框架),基于源索引重建机制同时解决历史坍缩与可溯源学习两大痛点:

  1. 将每一轮完整环境交互压缩为轻量化记忆记录;
  2. 通过筛选记忆记录重建受限上下文窗口;
  3. 复用记忆源索引,将正向结果奖励精准分配给支撑正确答案的证据与记忆筛选动作。

在长时序检索基准BrowseComp-Plus上,ECHO离线验证准确率达43.4%,显著优于GRPO(28.9%)与滚动摘要基线SUPO(36.1%),同时交互轮次、轨迹总token量均低于SUPO。基于稠密Qwen3-32B-Instruct、稀疏MoE Qwen3-30B-A3B-Instruct两类基座模型,ECHO在多目标问答、代码生成、深度信息检索零样本任务上均实现统一泛化提升。

1 引言

大语言模型(LLM)智能体通过推理、工具调用、环境反馈交替完成多轮交互。基于可验证最终结果的强化学习(GRPO等)已成为检索、代码生成、工具调用、深度研究类智能体的主流优化方案。但随交互时序拉长,历史交互记录成为执行与训练双重瓶颈:

  • 执行瓶颈:智能体需在有限上下文内留存有效工具观测;
  • 训练瓶颈:算法需要定位支撑最终答案的早期交互轮次,分配梯度奖励。

现有上下文管理方案的固有缺陷

现有方法通过截断、摘要、检索、编辑历史拓展推演长度,但存在耦合短板:

  1. 细粒度证据丢失:远期观测被删除/压缩,关键细节无法复用;
  2. 溯源链路断裂:滚动摘要等坍缩式方案仅保留摘要文本,无法追溯原始交互轮次;
  3. 奖励分配噪声:标准多轮RL将轨迹优势均匀分配至全部生成token,冗余检索、无效推理会与有效证据同步得到正向强化,造成轮次爆炸、轨迹token膨胀、训练收敛缓慢。

本文核心思路与贡献

ECHO统一上下文重建与可溯源信用分配流程:每轮工具交互生成带源索引的记忆单元,上下文溢出时由模型自主筛选有效记忆重建窗口;筛选使用的源索引直接作为奖励分配依据,仅对有效证据、答案、记忆筛选动作分配正向梯度。

四大核心贡献:

  1. 提出统一上下文管理多轮RL建模接口,区分历史状态、受限上下文重建、源级可追溯性,清晰拆解坍缩式方案损失溯源信息的底层问题;
  2. 设计ECHO选择性轮次记忆重建机制,不全局压缩历史,每轮交互独立存储带源索引记忆,通过模型学习筛选构建受限上下文;
  3. 提出溯源引导的token级信用分配,依托记忆源索引,将正向结果梯度精准路由至最终答案、选中历史证据、记忆摘要、记忆筛选动作;
  4. 在BrowseComp-Plus及多类零样本基准完成验证,稠密/MoE基座下均实现准确率提升,同时降低交互轮次与轨迹存储开销;消融实验证明记忆筛选、溯源信用分配两大模块缺一不可。

2 相关工作

2.1 长时序语言智能体强化学习

语言智能体建模为多轮决策器,基于可验证奖励的RL广泛用于检索、函数调用、代码任务。长时序基准要求智能体多轮检索、交叉比对证据、验证答案,但标准结果导向RL未定义压缩后的历史如何为奖励分配提供溯源依据。

2.2 上下文管理与智能体记忆

主流方案:提示压缩、摘要、检索、外置记忆模块;外置记忆可跨交互读写,部分工作基于依赖图、子目标工作记忆优化存储;SAM等可恢复记忆方案通过轻量化线索召回原始轨迹。

现有局限:仅优化推理执行阶段,未关联最终结果奖励与原始交互轮次的溯源链路。

近年RL融合上下文管理工作:递归更新摘要、将记忆增删改查建模为策略动作、MemPO针对记忆片段单独优化优势。ECHO差异化优势:完整保留每轮交互源索引,复用上下文筛选索引作为奖励分配溯源路径。

2.3 长时序智能体RL信用分配

稀疏奖励下信用分配是经典难题,标准GRPO将统一轨迹优势施加于全部生成token,长时序工具任务中噪声极大。

前沿改进方向:轮次级优势估计、事后重打分、里程碑分割、分层规划信用、熵调节优势权重。

上述方法仅优化时间/不确定性维度奖励分配,与上下文重建流程解耦;ECHO为互补方案:利用上下文重建暴露的源索引构建溯源掩码,定向分配梯度。

3 前置理论基础

3.1 面向智能体RL的多轮GRPO框架

设初始任务提示为xxx;交互步ttt,策略基于受限上下文ctc_tct采样动作at∼πθ(⋅∣ct)a_t \sim\pi_{\theta}(\cdot|c_t)at∼πθ(⋅∣ct);动作包含推理、工具调用、上下文管理操作、最终答案。

单次交互轮次:ut=(at,ot)u_t=(a_t,o_t)ut=(at,ot),oto_tot为环境观测(工具返回/空);

Ht=(u1,...,ut−1)H_t=(u_1,...,u_{t-1})Ht=(u1,...,ut−1):ttt步前完整交互历史;

完整轨迹:τ=(u1,...,uT)\tau=(u_1,...,u_T)τ=(u1,...,uT);仅轨迹末尾存在稀疏奖励R(τ)R(\tau)R(τ)。

GRPO分组采样NNN条完整轨迹,单条轨迹分组相对优势:

A(n)=R(τ(n))−mean⁡({R(τ(i))}i=1N)std⁡({R(τ(i))}i=1N)+ϵA^{(n)}=\frac{R(\tau^{(n)})-\operatorname{mean}(\{R(\tau^{(i)})\}{i=1}^N)}{\operatorname{std}(\{R(\tau^{(i)})\}{i=1}^N)+\epsilon}A(n)=std({R(τ(i))}i=1N)+ϵR(τ(n))−mean({R(τ(i))}i=1N)

简化多轮策略梯度目标(忽略裁剪、KL惩罚等实现项):

JMT(θ)=Ex∼D1N∑n=1N∑t=1TnA(n)log⁡πθ(at(n)∣ct(n))\mathcal{J}{\mathrm{MT}}(\theta)=\mathbb{E}{x\sim\mathcal{D}}\left\\frac{1}{N}\\sum_{n=1}\^{N}\\sum_{t=1}\^{T_{n}}A\^{(n)}\\log\\pi_{\\theta}(a_{t}\^{(n)}\\mid c_{t}\^{(n)})\\rightJMT(θ)=Ex∼DN1n=1∑Nt=1∑TnA(n)logπθ(at(n)∣ct(n))

区分两个关键概念:

  • HtH_tHt:环境侧完整交互历史(无长度限制);
  • ctc_tct:模型输入受限策略上下文(长度严格小于预算BBB)。

3.2 上下文管理多轮推演统一接口

上下文预算BBB为策略上下文最大token长度,任意交互步需满足∣ct∣≤B|c_t|\le B∣ct∣≤B。将完整轨迹切分为多个上下文分段:

0=K0(n)<K1(n)<⋯<KJn(n)=Tn0=K_{0}^{(n)}<K_{1}^{(n)}<\dots<K_{J_{n}}^{(n)}=T_{n}0=K0(n)<K1(n)<⋯<KJn(n)=Tn

第jjj分段前置完整历史、分段内局部历史:

HKj−1(n)(n)=(u1(n),...,uKj−1(n)(n)),Hj,t(n),loc=(uKj−1(n)+1(n),...,ut−1(n))H_{K_{j-1}^{(n)}}^{(n)}=(u_1^{(n)},\dots,u_{K_{j-1}^{(n)}}^{(n)}),\quad H_{j,t}^{(n),\mathrm{loc}}=(u_{K_{j-1}^{(n)}+1}^{(n)},\dots,u_{t-1}^{(n)})HKj−1(n)(n)=(u1(n),...,uKj−1(n)(n)),Hj,t(n),loc=(uKj−1(n)+1(n),...,ut−1(n))

上下文管理器M\mathcal{M}M、重建函数Φ\PhiΦ构成通用建模:

zj(n)=M ⁣(HKj−1(n)(n)),cj,t(n)=x⊕Φ ⁣(zj(n),Hj,t(n),loc;B)z_{j}^{(n)}=\mathcal{M}\!\left(H_{K_{j-1}^{(n)}}^{(n)}\right),\qquad c_{j,t}^{(n)}=x\oplus\Phi\!\left(z_{j}^{(n)},H_{j,t}^{(n),\mathrm{loc}};B\right)zj(n)=M(HKj−1(n)(n)),cj,t(n)=x⊕Φ(zj(n),Hj,t(n),loc;B)

  • zj(n)z_j^{(n)}zj(n):压缩历史状态(原始记录/摘要/记忆集合);
  • ⊕\oplus⊕:文本拼接/模型条件输入;
  • Φ\PhiΦ:在预算约束下融合历史状态与近期局部交互。

代入梯度目标得到上下文感知RL损失:

JCM(θ)=Ex∼D1N∑n=1N∑j=1Jn∑t=Kj−1(n)+1Kj(n)A(n)log⁡πθ(at(n)∣x⊕Φ ⁣(zj(n),Hj,t(n),loc;B))\mathcal{J}{\mathrm{CM}}(\theta)=\mathbb{E}{x\sim\mathcal{D}}\left\\frac{1}{N}\\sum_{n=1}\^{N}\\sum_{j=1}\^{J_{n}}\\sum_{t=K_{j-1}\^{(n)}+1}\^{K_{j}\^{(n)}}A\^{(n)}\\log\\pi_{\\theta}\\left(a_{t}\^{(n)}\\mid x\\oplus\\Phi\\!\\left(z_{j}\^{(n)},H_{j,t}\^{(n),\\mathrm{loc}};B\\right)\\right)\\rightJCM(θ)=Ex∼D N1n=1∑Nj=1∑Jnt=Kj−1(n)+1∑Kj(n)A(n)logπθ(at(n)∣x⊕Φ(zj(n),Hj,t(n),loc;B))

表1 主流上下文推演方案对比(溯源能力区分)

策略类型 托管历史 上下文重建方式 源级可追溯性 代表方法
追加式 完整历史前缀 全历史拼接 完全保留 原生Prompt
截断式 仅保留最新后缀 仅近期交互 完全丢失 滑动窗口
递归压缩 迭代更新摘要状态zjz_jzj 摘要渲染+局部近期 完全坍缩 SUPO、MemAgent
剪枝/省略 原始历史子集 筛选子集渲染 部分保留 Agent-Omit
记忆动作 策略编辑记忆库 记忆集合渲染 间接追溯 MemAct、Memory-R1
选择性轮次记忆(ECHO) 带索引记忆集合Mj={ei}M_j=\{e_i\}Mj={ei} 选中记忆+局部近期 源索引完整保留 本文ECHO

4 方法:ECHO整体框架

ECHO核心逻辑分为两大模块:剪枝执行(选择性记忆重建)溯源学习(溯源引导信用分配)

4.1 动机:上下文重建与溯源能力的矛盾

滚动摘要(SUPO)典型缺陷:虽然支持超长推演,但原始交互轮次被融合丢失,训练时无法区分有效证据与冗余检索;实证表现为交互轮次爆炸、响应长度、生成耗时、轨迹token量同步膨胀。

ECHO设计目标:在压缩上下文满足推理约束的同时,保留每轮交互的独立源索引,为梯度分配提供完整溯源链路。

4.2 剪枝执行:选择性轮次记忆重建

将单轮局部压缩与全局上下文筛选解耦,不合并坍缩历史,每轮交互独立存储可索引记忆单元。

(1)带源索引轮次记忆存储

单轮完整交互ui=(ai,oi)u_i=(a_i,o_i)ui=(ai,oi)生成轻量化局部摘要sis_isi:

si∼πθ(⋅∣cisum),mi=parse⁡(si)s_{i}\sim\pi_{\theta}(\cdot\mid c_{i}^{\mathrm{sum}}),\qquad m_{i}=\operatorname{parse}(s_{i})si∼πθ(⋅∣cisum),mi=parse(si)

cisumc_i^{\mathrm{sum}}cisum包含本轮交互与专用摘要指令,仅提炼单轮关键信息。

单条记忆记录:ei=(i,αi,mi)e_{i}=(i,\alpha_{i},m_{i})ei=(i,αi,mi)

  • iii:原始交互轮次源索引(核心溯源标识);
  • αi\alpha_iαi:工具调用/动作轻量化描述;
  • mim_imi:本轮摘要线索;
    全局记忆集合:Mj=M(HKj−1)={ei}i≤Kj−1M_{j}=\mathcal{M}(H_{K_{j-1}})=\{e_{i}\}{i\le K{j-1}}Mj=M(HKj−1)={ei}i≤Kj−1。

记忆集合无坍缩:每一条记忆永久绑定原始交互轮次,即使原始观测超出上下文窗口仍可索引。

(2)自回归记忆筛选

设置超参:SSS模型最大筛选历史轮次、KKK自动保留最新轮次。上下文溢出触发筛选阶段:

cjsel=x⊕Φlocal(Hjbd;B)⊕render⁡list(Mj)⊕xselc_{j}^{\mathrm{sel}}=x\oplus\Phi_{\mathrm{local}}(H_{j}^{\mathrm{bd}};B)\oplus\operatorname{render}{\mathrm{list}}(M{j})\oplus x_{\mathrm{sel}}cjsel=x⊕Φlocal(Hjbd;B)⊕renderlist(Mj)⊕xsel

模型输出筛选动作ajsela_{j}^{\mathrm{sel}}ajsel,解析得到待保留索引集合I^jsel\widehat{\mathcal{I}}^{\mathrm{sel}}{j}I jsel;修复算子ρB,S,K\rho{B,S,K}ρB,S,K完成去重、越界过滤、预算约束裁剪,合并自动保留的最新KKK轮。

(3)受限上下文重建

基于筛选索引提取记忆子集,拼接任务提示、选中记忆、分段内近期交互构建本轮模型输入:

MjI\^jsel={ei∈Mj∣i∈I^jsel}M_{j}\\widehat{\\mathcal{I}}\^{\\mathrm{sel}}_{j}=\{e_{i}\in M_{j}\mid i\in\widehat{\mathcal{I}}^{\mathrm{sel}}_{j}\}MjI jsel={ei∈Mj∣i∈I jsel}

cj,t=x⊕render⁡ ⁣(MjI\^jsel)⊕Φlocal(Hj,tloc;B),∣cj,t∣≤Bc_{j,t}=x\oplus\operatorname{render}\!\left(M_{j}\\widehat{\\mathcal{I}}\^{\\mathrm{sel}}_{j}\right)\oplus\Phi_{\mathrm{local}}(H_{j,t}^{\mathrm{loc}};B),\quad|c_{j,t}|\leq Bcj,t=x⊕render(MjI jsel)⊕Φlocal(Hj,tloc;B),∣cj,t∣≤B

筛选索引I^jsel\widehat{\mathcal{I}}^{\mathrm{sel}}_{j}I jsel作为后续训练的溯源凭证。

4.3 溯源学习:溯源引导信用分配

GRPO/SUPO将统一轨迹优势分配至全部生成token,摘要、冗余检索同步获得正向梯度;ECHO依托筛选索引构建token级硬掩码,仅对有效链路分配正向奖励。

1)Token信用掩码构建

设Isrc(n)\mathcal{I}_{\mathrm{src}}^{(n)}Isrc(n)为最终上下文选中的历史源索引;定义四类标识:

  • gq(n)=1g_q^{(n)}=1gq(n)=1:最终答案token;
  • dq(n)d_q^{(n)}dq(n):属于选中源轮次的动作token;
  • fq(n)f_q^{(n)}fq(n):选中轮次对应的摘要token;
  • bq(n)=1b_q^{(n)}=1bq(n)=1:记忆筛选操作生成token。

掩码公式:

μq(n)=1{gq(n)=1  ∨  dq(n)∈Isrc(n)  ∨  fq(n)∈Isrc(n)  ∨  bq(n)=1}\mu_{q}^{(n)}=\mathbf{1}\left\{g_{q}^{(n)}=1\;\vee\;d_{q}^{(n)}\in\mathcal{I}{\mathrm{src}}^{(n)}\;\vee\;f{q}^{(n)}\in\mathcal{I}{\mathrm{src}}^{(n)}\;\vee\;b{q}^{(n)}=1\right\}μq(n)=1{gq(n)=1∨dq(n)∈Isrc(n)∨fq(n)∈Isrc(n)∨bq(n)=1}

2)正向溯源优势路由

仅对分组相对优势为正的轨迹分配溯源梯度,过滤无效/错误轨迹噪声:

A~q(n)=A+(n)μq(n),A+(n)=max⁡(A(n),0)\widetilde{A}{q}^{(n)}=A{+}^{(n)}\mu_{q}^{(n)},\qquad A_{+}^{(n)}=\max(A^{(n)},0)A q(n)=A+(n)μq(n),A+(n)=max(A(n),0)

3)ECHO单轨迹损失函数

仅掩码为1的token参与梯度更新:

KaTeX parse error: Undefined control sequence: \textsc at position 14: \mathcal{L}_{\̲t̲e̲x̲t̲s̲c̲{ECHO}}^{(n)}(\...

整体目标对全部任务、采样轨迹组求均值,省略裁剪、KL散度等工程实现项。

附录B 算法1:ECHO推演完整流程

复制代码
输入:任务提示x,策略πθ,工具集T,上下文预算B,自动保留近期轮K,单次筛选上限S
初始化:C ← x;记忆集合M=∅;生成片段缓存G=∅;总片段集合G_all=∅;待摘要标记p=∅;轮次计数器i=0
while 推演未终止:
    # 1. 基于当前上下文采样动作
    a_t ~ πθ(·|C)
    将a_t追加至上下文C,token存入G
    # 2. 完成上一轮交互后生成单轮摘要存入记忆
    if p不为空:
        (i_p, α_ip) = p
        m_ip = 模型基于本轮交互生成单轮摘要
        M = M ∪ {e_ip=(i_p, α_ip, m_ip)}
        将G内摘要token标记为源轮i_p的线索token
        p = ∅
    # 3. 解析工具调用
    解析a_t中的工具指令
    if 无工具调用(输出最终答案):
        将G内token标记为最终答案token
        G_all = G_all ∪ {G}
        break
    # 4. 执行工具,更新交互记录
    α_i = 工具调用轻量化描述
    将G内动作token标记为源轮i的交互token
    调用工具集T,获取观测o_i
    将o_i追加至上下文C
    p = (i, α_i)
    i = i + 1
    向C追加<sum_last_turn>摘要提示
    # 5. 上下文溢出,执行记忆筛选重建
    if len(C) > B:
        # 构造筛选专用上下文
        c_sel = C + 序列化全部记忆M + 筛选专用指令x_sel
        a_sel ~ πθ(·|c_sel)
        将a_sel存入G并标记为筛选操作token
        # 解析、修复筛选索引
        I = ρ_B,S,K(解析(a_sel), M)
        保存选中轮次、摘要、筛选token掩码(训练使用)
        # 分段缓存重置,重建全新受限上下文
        G_all = G_all ∪ {G}
        C = x + 序列化M[I] + 连续推演提示
        G = ∅
循环结束
输出:带信用掩码标记的全部生成片段集合G_all

5 实验

5.1 实验基础配置

(1)基准与对比基线
  • 主训练基准:BrowseComp-Plus(长时序检索问答,训练集747条,验证集83条);
  • 对比方法:GRPO(无记忆压缩原生基线)、SUPO(滚动摘要上下文管理);
  • 基座模型:稠密Qwen3-32B-Instruct、稀疏MoE Qwen3-30B-A3B-Instruct;
  • 工具环境:search检索、open_page页面读取、finish终止推演;检索后端Qwen3-Embedding-8B,单次返回top5文档,单文档最大16000字符,支持5并行工具调用。
(2)通用训练超参
  • 上下文预算:32k token;每prompt采样8条轨迹;单轮最多5次压缩分段,最大有效交互token 192k;
  • ECHO专属超参:自动保留最新3轮,单次筛选最多8条历史记忆;
  • 硬件:4节点×8GPU异步训练流水线,陈旧度阈值0.5;
  • 评估指标:离线验证Pass@1、单轮平均交互数、轨迹总token量、单条轨迹分段数、生成耗时。
(3)零样本泛化基准(无微调直接测试)
  1. 多目标问答:2/4/8/16子目标复合问答,基于HotpotQA、2WikiMultihopQA等数据集构造;
  2. 代码生成:CodeGym交互API编程、LoCoBench-Agent百万级代码库工程任务;
  3. 深度信息检索:GAIA通用助手、HLE高阶专业问答、Frames多跳冲突证据融合。

5.2 主实验结果(BrowseComp-Plus,Qwen3-32B-Instruct)

方法 离线验证准确率 平均单轨迹交互轮次 轨迹分段比例 单轨迹平均分段数
GRPO 28.9% 11.2 - -
SUPO(滚动摘要) 36.1% 62.5 85.5% 4.18
ECHO 43.4% 45.3 57.8% 3.13

核心结论:

  1. GRPO上下文无压缩,轮次少但探索不足,准确率提前饱和;
  2. SUPO依靠摘要拉长推演,但冗余检索造成轮次爆炸、轨迹开销大幅上升;
  3. ECHO兼顾准确率与效率:高于SUPO 7.3个百分点,交互轮次、轨迹体积显著降低,实现"高准确率+轻量化推演"。

5.3 消融实验

消融A:记忆模块消融
  1. 将模型自主筛选替换为静态语义Top-K检索:准确率大幅下降,证明基于当前任务状态的动态选择优于固定相似度检索;
  2. 将轻量化单轮摘要替换完整原始观测:性能无明显提升,证明ECHO增益来源于可学习筛选而非文本长度。
消融B:溯源信用分配消融
  1. ECHO w/o Traceable CA:移除溯源掩码,全部token统一分配优势,准确率、训练稳定性下降;
  2. ECHO w/o Traceable CA + 轮次级重要性采样:粗粒度轮次梯度进一步加剧冗余搜索,轮次膨胀、精度下跌;
    证明溯源掩码定向梯度是性能提升关键。

5.4 零样本泛化结果(Qwen3-32B-Instruct,平均得分)

方法 多目标问答平均 代码生成平均 深度检索平均 全部任务平均
GRPO 35.8 50.2 19.6 33.6
SUPO 37.1 51.7 20.4 34.8
ECHO(Top-K检索) 39.2 55.0 25.7 38.2
ECHO(完整方案) 42.7 55.9 26.5 40.2

MoE基座Qwen3-30B-A3B-Instruct趋势一致:ECHO平均得分30.5,SUPO仅26.9;在多目标、长证据依赖任务提升最明显。

5.5 MoE基座鲁棒性验证

SUPO在MoE模型训练至50步后性能崩塌:摘要坍缩引发海量无效检索,准确率跌至13.3%;ECHO全程稳定收敛,最终准确率35.0%,证明框架不依赖稠密模型结构,稀疏MoE同样适配。

6 结论

本文提出ECHO选择性轮次记忆框架,统一解决长时序智能体RL的历史坍缩、梯度溯源断裂两大问题:

  1. 执行侧:每轮交互生成带独立源索引记忆,模型自主筛选构建受限上下文,避免全局摘要坍缩;
  2. 训练侧:复用筛选索引构建溯源梯度掩码,仅对支撑正确答案的证据、筛选动作分配正向奖励,抑制冗余检索。

在BrowseComp-Plus上ECHO大幅超越GRPO、SUPO基线,消融验证记忆筛选、溯源信用分配为核心增益模块;跨多领域零样本测试证明框架具备强泛化能力,稠密、MoE两类基座均稳定提升。研究证明:上下文管理保留原始交互溯源信息,是实现高效长时序检索智能体的关键路径。

7 局限性与未来工作

  1. 溯源近似约束:仅对最终上下文选中的轮次分配梯度,未递归追溯多层依赖历史;超深度嵌套任务下部分关键早期交互无法获得梯度,后续可实现完整递归溯源链路;
  2. 场景覆盖有限:实验仅基于文本工具检索智能体,GUI交互、具身智能、多智能体场景待验证;
  3. 计算开销:记忆筛选、单轮摘要增加前向推理开销,未来可优化索引、轻量化筛选模块降低延时。

附录D 全部提示词完整脚本

D.1 BrowseComp-Plus基础提示

与SUPO基线完全一致,采用Hermes标准<tool_call></tool_call>工具调用格式,包含问题拆解、迭代检索、证据整合、答案校验完整流程。

D.2 ECHO专属提示指令

1)单轮摘要强制提示(系统提示追加)

完成工具返回读取后,助手回复必须在所有工具调用前包含<sum_last_turn>单句事实摘要</sum_last_turn>,仅总结本轮工具结果,摘要完成后继续生成工具调用或finish结束推演,不可中途终止。

简易提示短句:Briefly record the latest tool result in <sum_last_turn>...</sum_last_turn>, then continue with the next action.

2)记忆筛选专用系统提示
复制代码
当前上下文已满,筛选历史交互轮次中解决任务必需的记录,遵循规则:
1. 仅输出<selection></selection>标签内内容,禁止工具调用、直接回答问题;
2. 格式:turn_N: 筛选理由,每行一条;无需要历史轮次则置空;
3. 优先选择未被自动保留的早期交互,仅保留含可复用证据、约束、失败尝试、后续规划的轮次;
4. 最多选择8条历史,最新3轮会自动保留,无需重复选择。

筛选输入附带全部有效轮次列表,限定索引范围turn_0 ~ turn_{n_hist-1}

资源汇总

  1. 论文原文:https://arxiv.org/html/2606.31650v1
  2. 开源代码仓库:https://github.com/xiezijun714-lang/Echo
  3. 基准数据集:BrowseComp-Plus(arXiv:2508.06600)、GAIA、HLE、CodeGym、LoCoBench-Agent
  4. 基座模型:Qwen3-32B-Instruct、Qwen3-30B-A3B-Instruct、Qwen3-Embedding-8B
  5. 训练框架:多机多GPU异步GRPO强化学习流水线,支持稠密/MoE模型统一训练