ECHO:面向智能体强化学习的选择性轮次记忆框架------剪枝执行、溯源学习
论文原始链接 :https://arxiv.org/html/2606.31650v1
开源代码地址 :https://github.com/xiezijun714-lang/Echo
发布信息:arXiv:2606.31650v1 cs.LG,2026-06-30,开源协议CC BY 4.0
摘要
长时序语言智能体需要反复调用工具、积累证据,并在有限上下文窗口约束下完成决策。现有上下文管理方案通过截断远期历史、滚动摘要压缩历史、筛选轻量化记忆状态实现长轨迹推演,但存在两大耦合缺陷:
- 随交互轮次增加,历史观测被逐步删除或压缩,策略难以复用细粒度证据;
- 原始交互轮次失去索引溯源能力,基于最终结果的强化学习(RL)无法将策略更新与支撑正确答案的证据精准对齐。
本文提出ECHO(选择性轮次记忆框架),基于源索引重建机制同时解决历史坍缩与可溯源学习两大痛点:
- 将每一轮完整环境交互压缩为轻量化记忆记录;
- 通过筛选记忆记录重建受限上下文窗口;
- 复用记忆源索引,将正向结果奖励精准分配给支撑正确答案的证据与记忆筛选动作。
在长时序检索基准BrowseComp-Plus上,ECHO离线验证准确率达43.4%,显著优于GRPO(28.9%)与滚动摘要基线SUPO(36.1%),同时交互轮次、轨迹总token量均低于SUPO。基于稠密Qwen3-32B-Instruct、稀疏MoE Qwen3-30B-A3B-Instruct两类基座模型,ECHO在多目标问答、代码生成、深度信息检索零样本任务上均实现统一泛化提升。
1 引言
大语言模型(LLM)智能体通过推理、工具调用、环境反馈交替完成多轮交互。基于可验证最终结果的强化学习(GRPO等)已成为检索、代码生成、工具调用、深度研究类智能体的主流优化方案。但随交互时序拉长,历史交互记录成为执行与训练双重瓶颈:
- 执行瓶颈:智能体需在有限上下文内留存有效工具观测;
- 训练瓶颈:算法需要定位支撑最终答案的早期交互轮次,分配梯度奖励。
现有上下文管理方案的固有缺陷
现有方法通过截断、摘要、检索、编辑历史拓展推演长度,但存在耦合短板:
- 细粒度证据丢失:远期观测被删除/压缩,关键细节无法复用;
- 溯源链路断裂:滚动摘要等坍缩式方案仅保留摘要文本,无法追溯原始交互轮次;
- 奖励分配噪声:标准多轮RL将轨迹优势均匀分配至全部生成token,冗余检索、无效推理会与有效证据同步得到正向强化,造成轮次爆炸、轨迹token膨胀、训练收敛缓慢。
本文核心思路与贡献
ECHO统一上下文重建与可溯源信用分配流程:每轮工具交互生成带源索引的记忆单元,上下文溢出时由模型自主筛选有效记忆重建窗口;筛选使用的源索引直接作为奖励分配依据,仅对有效证据、答案、记忆筛选动作分配正向梯度。
四大核心贡献:
- 提出统一上下文管理多轮RL建模接口,区分历史状态、受限上下文重建、源级可追溯性,清晰拆解坍缩式方案损失溯源信息的底层问题;
- 设计ECHO选择性轮次记忆重建机制,不全局压缩历史,每轮交互独立存储带源索引记忆,通过模型学习筛选构建受限上下文;
- 提出溯源引导的token级信用分配,依托记忆源索引,将正向结果梯度精准路由至最终答案、选中历史证据、记忆摘要、记忆筛选动作;
- 在BrowseComp-Plus及多类零样本基准完成验证,稠密/MoE基座下均实现准确率提升,同时降低交互轮次与轨迹存储开销;消融实验证明记忆筛选、溯源信用分配两大模块缺一不可。
2 相关工作
2.1 长时序语言智能体强化学习
语言智能体建模为多轮决策器,基于可验证奖励的RL广泛用于检索、函数调用、代码任务。长时序基准要求智能体多轮检索、交叉比对证据、验证答案,但标准结果导向RL未定义压缩后的历史如何为奖励分配提供溯源依据。
2.2 上下文管理与智能体记忆
主流方案:提示压缩、摘要、检索、外置记忆模块;外置记忆可跨交互读写,部分工作基于依赖图、子目标工作记忆优化存储;SAM等可恢复记忆方案通过轻量化线索召回原始轨迹。
现有局限:仅优化推理执行阶段,未关联最终结果奖励与原始交互轮次的溯源链路。
近年RL融合上下文管理工作:递归更新摘要、将记忆增删改查建模为策略动作、MemPO针对记忆片段单独优化优势。ECHO差异化优势:完整保留每轮交互源索引,复用上下文筛选索引作为奖励分配溯源路径。
2.3 长时序智能体RL信用分配
稀疏奖励下信用分配是经典难题,标准GRPO将统一轨迹优势施加于全部生成token,长时序工具任务中噪声极大。
前沿改进方向:轮次级优势估计、事后重打分、里程碑分割、分层规划信用、熵调节优势权重。
上述方法仅优化时间/不确定性维度奖励分配,与上下文重建流程解耦;ECHO为互补方案:利用上下文重建暴露的源索引构建溯源掩码,定向分配梯度。
3 前置理论基础
3.1 面向智能体RL的多轮GRPO框架
设初始任务提示为xxx;交互步ttt,策略基于受限上下文ctc_tct采样动作at∼πθ(⋅∣ct)a_t \sim\pi_{\theta}(\cdot|c_t)at∼πθ(⋅∣ct);动作包含推理、工具调用、上下文管理操作、最终答案。
单次交互轮次:ut=(at,ot)u_t=(a_t,o_t)ut=(at,ot),oto_tot为环境观测(工具返回/空);
Ht=(u1,...,ut−1)H_t=(u_1,...,u_{t-1})Ht=(u1,...,ut−1):ttt步前完整交互历史;
完整轨迹:τ=(u1,...,uT)\tau=(u_1,...,u_T)τ=(u1,...,uT);仅轨迹末尾存在稀疏奖励R(τ)R(\tau)R(τ)。
GRPO分组采样NNN条完整轨迹,单条轨迹分组相对优势:
A(n)=R(τ(n))−mean({R(τ(i))}i=1N)std({R(τ(i))}i=1N)+ϵA^{(n)}=\frac{R(\tau^{(n)})-\operatorname{mean}(\{R(\tau^{(i)})\}{i=1}^N)}{\operatorname{std}(\{R(\tau^{(i)})\}{i=1}^N)+\epsilon}A(n)=std({R(τ(i))}i=1N)+ϵR(τ(n))−mean({R(τ(i))}i=1N)
简化多轮策略梯度目标(忽略裁剪、KL惩罚等实现项):
JMT(θ)=Ex∼D1N∑n=1N∑t=1TnA(n)logπθ(at(n)∣ct(n))\mathcal{J}{\mathrm{MT}}(\theta)=\mathbb{E}{x\sim\mathcal{D}}\left\\frac{1}{N}\\sum_{n=1}\^{N}\\sum_{t=1}\^{T_{n}}A\^{(n)}\\log\\pi_{\\theta}(a_{t}\^{(n)}\\mid c_{t}\^{(n)})\\rightJMT(θ)=Ex∼DN1n=1∑Nt=1∑TnA(n)logπθ(at(n)∣ct(n))
区分两个关键概念:
- HtH_tHt:环境侧完整交互历史(无长度限制);
- ctc_tct:模型输入受限策略上下文(长度严格小于预算BBB)。
3.2 上下文管理多轮推演统一接口
上下文预算BBB为策略上下文最大token长度,任意交互步需满足∣ct∣≤B|c_t|\le B∣ct∣≤B。将完整轨迹切分为多个上下文分段:
0=K0(n)<K1(n)<⋯<KJn(n)=Tn0=K_{0}^{(n)}<K_{1}^{(n)}<\dots<K_{J_{n}}^{(n)}=T_{n}0=K0(n)<K1(n)<⋯<KJn(n)=Tn
第jjj分段前置完整历史、分段内局部历史:
HKj−1(n)(n)=(u1(n),...,uKj−1(n)(n)),Hj,t(n),loc=(uKj−1(n)+1(n),...,ut−1(n))H_{K_{j-1}^{(n)}}^{(n)}=(u_1^{(n)},\dots,u_{K_{j-1}^{(n)}}^{(n)}),\quad H_{j,t}^{(n),\mathrm{loc}}=(u_{K_{j-1}^{(n)}+1}^{(n)},\dots,u_{t-1}^{(n)})HKj−1(n)(n)=(u1(n),...,uKj−1(n)(n)),Hj,t(n),loc=(uKj−1(n)+1(n),...,ut−1(n))
上下文管理器M\mathcal{M}M、重建函数Φ\PhiΦ构成通用建模:
zj(n)=M (HKj−1(n)(n)),cj,t(n)=x⊕Φ (zj(n),Hj,t(n),loc;B)z_{j}^{(n)}=\mathcal{M}\!\left(H_{K_{j-1}^{(n)}}^{(n)}\right),\qquad c_{j,t}^{(n)}=x\oplus\Phi\!\left(z_{j}^{(n)},H_{j,t}^{(n),\mathrm{loc}};B\right)zj(n)=M(HKj−1(n)(n)),cj,t(n)=x⊕Φ(zj(n),Hj,t(n),loc;B)
- zj(n)z_j^{(n)}zj(n):压缩历史状态(原始记录/摘要/记忆集合);
- ⊕\oplus⊕:文本拼接/模型条件输入;
- Φ\PhiΦ:在预算约束下融合历史状态与近期局部交互。
代入梯度目标得到上下文感知RL损失:
JCM(θ)=Ex∼D1N∑n=1N∑j=1Jn∑t=Kj−1(n)+1Kj(n)A(n)logπθ(at(n)∣x⊕Φ (zj(n),Hj,t(n),loc;B))\mathcal{J}{\mathrm{CM}}(\theta)=\mathbb{E}{x\sim\mathcal{D}}\left\\frac{1}{N}\\sum_{n=1}\^{N}\\sum_{j=1}\^{J_{n}}\\sum_{t=K_{j-1}\^{(n)}+1}\^{K_{j}\^{(n)}}A\^{(n)}\\log\\pi_{\\theta}\\left(a_{t}\^{(n)}\\mid x\\oplus\\Phi\\!\\left(z_{j}\^{(n)},H_{j,t}\^{(n),\\mathrm{loc}};B\\right)\\right)\\rightJCM(θ)=Ex∼D N1n=1∑Nj=1∑Jnt=Kj−1(n)+1∑Kj(n)A(n)logπθ(at(n)∣x⊕Φ(zj(n),Hj,t(n),loc;B))
表1 主流上下文推演方案对比(溯源能力区分)
| 策略类型 | 托管历史 | 上下文重建方式 | 源级可追溯性 | 代表方法 |
|---|---|---|---|---|
| 追加式 | 完整历史前缀 | 全历史拼接 | 完全保留 | 原生Prompt |
| 截断式 | 仅保留最新后缀 | 仅近期交互 | 完全丢失 | 滑动窗口 |
| 递归压缩 | 迭代更新摘要状态zjz_jzj | 摘要渲染+局部近期 | 完全坍缩 | SUPO、MemAgent |
| 剪枝/省略 | 原始历史子集 | 筛选子集渲染 | 部分保留 | Agent-Omit |
| 记忆动作 | 策略编辑记忆库 | 记忆集合渲染 | 间接追溯 | MemAct、Memory-R1 |
| 选择性轮次记忆(ECHO) | 带索引记忆集合Mj={ei}M_j=\{e_i\}Mj={ei} | 选中记忆+局部近期 | 源索引完整保留 | 本文ECHO |
4 方法:ECHO整体框架
ECHO核心逻辑分为两大模块:剪枝执行(选择性记忆重建) 、溯源学习(溯源引导信用分配)。
4.1 动机:上下文重建与溯源能力的矛盾
滚动摘要(SUPO)典型缺陷:虽然支持超长推演,但原始交互轮次被融合丢失,训练时无法区分有效证据与冗余检索;实证表现为交互轮次爆炸、响应长度、生成耗时、轨迹token量同步膨胀。
ECHO设计目标:在压缩上下文满足推理约束的同时,保留每轮交互的独立源索引,为梯度分配提供完整溯源链路。
4.2 剪枝执行:选择性轮次记忆重建
将单轮局部压缩与全局上下文筛选解耦,不合并坍缩历史,每轮交互独立存储可索引记忆单元。
(1)带源索引轮次记忆存储
单轮完整交互ui=(ai,oi)u_i=(a_i,o_i)ui=(ai,oi)生成轻量化局部摘要sis_isi:
si∼πθ(⋅∣cisum),mi=parse(si)s_{i}\sim\pi_{\theta}(\cdot\mid c_{i}^{\mathrm{sum}}),\qquad m_{i}=\operatorname{parse}(s_{i})si∼πθ(⋅∣cisum),mi=parse(si)
cisumc_i^{\mathrm{sum}}cisum包含本轮交互与专用摘要指令,仅提炼单轮关键信息。
单条记忆记录:ei=(i,αi,mi)e_{i}=(i,\alpha_{i},m_{i})ei=(i,αi,mi)
- iii:原始交互轮次源索引(核心溯源标识);
- αi\alpha_iαi:工具调用/动作轻量化描述;
- mim_imi:本轮摘要线索;
全局记忆集合:Mj=M(HKj−1)={ei}i≤Kj−1M_{j}=\mathcal{M}(H_{K_{j-1}})=\{e_{i}\}{i\le K{j-1}}Mj=M(HKj−1)={ei}i≤Kj−1。
记忆集合无坍缩:每一条记忆永久绑定原始交互轮次,即使原始观测超出上下文窗口仍可索引。
(2)自回归记忆筛选
设置超参:SSS模型最大筛选历史轮次、KKK自动保留最新轮次。上下文溢出触发筛选阶段:
cjsel=x⊕Φlocal(Hjbd;B)⊕renderlist(Mj)⊕xselc_{j}^{\mathrm{sel}}=x\oplus\Phi_{\mathrm{local}}(H_{j}^{\mathrm{bd}};B)\oplus\operatorname{render}{\mathrm{list}}(M{j})\oplus x_{\mathrm{sel}}cjsel=x⊕Φlocal(Hjbd;B)⊕renderlist(Mj)⊕xsel
模型输出筛选动作ajsela_{j}^{\mathrm{sel}}ajsel,解析得到待保留索引集合I^jsel\widehat{\mathcal{I}}^{\mathrm{sel}}{j}I jsel;修复算子ρB,S,K\rho{B,S,K}ρB,S,K完成去重、越界过滤、预算约束裁剪,合并自动保留的最新KKK轮。
(3)受限上下文重建
基于筛选索引提取记忆子集,拼接任务提示、选中记忆、分段内近期交互构建本轮模型输入:
MjI\^jsel={ei∈Mj∣i∈I^jsel}M_{j}\\widehat{\\mathcal{I}}\^{\\mathrm{sel}}_{j}=\{e_{i}\in M_{j}\mid i\in\widehat{\mathcal{I}}^{\mathrm{sel}}_{j}\}MjI jsel={ei∈Mj∣i∈I jsel}
cj,t=x⊕render (MjI\^jsel)⊕Φlocal(Hj,tloc;B),∣cj,t∣≤Bc_{j,t}=x\oplus\operatorname{render}\!\left(M_{j}\\widehat{\\mathcal{I}}\^{\\mathrm{sel}}_{j}\right)\oplus\Phi_{\mathrm{local}}(H_{j,t}^{\mathrm{loc}};B),\quad|c_{j,t}|\leq Bcj,t=x⊕render(MjI jsel)⊕Φlocal(Hj,tloc;B),∣cj,t∣≤B
筛选索引I^jsel\widehat{\mathcal{I}}^{\mathrm{sel}}_{j}I jsel作为后续训练的溯源凭证。
4.3 溯源学习:溯源引导信用分配
GRPO/SUPO将统一轨迹优势分配至全部生成token,摘要、冗余检索同步获得正向梯度;ECHO依托筛选索引构建token级硬掩码,仅对有效链路分配正向奖励。
1)Token信用掩码构建
设Isrc(n)\mathcal{I}_{\mathrm{src}}^{(n)}Isrc(n)为最终上下文选中的历史源索引;定义四类标识:
- gq(n)=1g_q^{(n)}=1gq(n)=1:最终答案token;
- dq(n)d_q^{(n)}dq(n):属于选中源轮次的动作token;
- fq(n)f_q^{(n)}fq(n):选中轮次对应的摘要token;
- bq(n)=1b_q^{(n)}=1bq(n)=1:记忆筛选操作生成token。
掩码公式:
μq(n)=1{gq(n)=1 ∨ dq(n)∈Isrc(n) ∨ fq(n)∈Isrc(n) ∨ bq(n)=1}\mu_{q}^{(n)}=\mathbf{1}\left\{g_{q}^{(n)}=1\;\vee\;d_{q}^{(n)}\in\mathcal{I}{\mathrm{src}}^{(n)}\;\vee\;f{q}^{(n)}\in\mathcal{I}{\mathrm{src}}^{(n)}\;\vee\;b{q}^{(n)}=1\right\}μq(n)=1{gq(n)=1∨dq(n)∈Isrc(n)∨fq(n)∈Isrc(n)∨bq(n)=1}
2)正向溯源优势路由
仅对分组相对优势为正的轨迹分配溯源梯度,过滤无效/错误轨迹噪声:
A~q(n)=A+(n)μq(n),A+(n)=max(A(n),0)\widetilde{A}{q}^{(n)}=A{+}^{(n)}\mu_{q}^{(n)},\qquad A_{+}^{(n)}=\max(A^{(n)},0)A q(n)=A+(n)μq(n),A+(n)=max(A(n),0)
3)ECHO单轨迹损失函数
仅掩码为1的token参与梯度更新:
KaTeX parse error: Undefined control sequence: \textsc at position 14: \mathcal{L}_{\̲t̲e̲x̲t̲s̲c̲{ECHO}}^{(n)}(\...
整体目标对全部任务、采样轨迹组求均值,省略裁剪、KL散度等工程实现项。
附录B 算法1:ECHO推演完整流程
输入:任务提示x,策略πθ,工具集T,上下文预算B,自动保留近期轮K,单次筛选上限S
初始化:C ← x;记忆集合M=∅;生成片段缓存G=∅;总片段集合G_all=∅;待摘要标记p=∅;轮次计数器i=0
while 推演未终止:
# 1. 基于当前上下文采样动作
a_t ~ πθ(·|C)
将a_t追加至上下文C,token存入G
# 2. 完成上一轮交互后生成单轮摘要存入记忆
if p不为空:
(i_p, α_ip) = p
m_ip = 模型基于本轮交互生成单轮摘要
M = M ∪ {e_ip=(i_p, α_ip, m_ip)}
将G内摘要token标记为源轮i_p的线索token
p = ∅
# 3. 解析工具调用
解析a_t中的工具指令
if 无工具调用(输出最终答案):
将G内token标记为最终答案token
G_all = G_all ∪ {G}
break
# 4. 执行工具,更新交互记录
α_i = 工具调用轻量化描述
将G内动作token标记为源轮i的交互token
调用工具集T,获取观测o_i
将o_i追加至上下文C
p = (i, α_i)
i = i + 1
向C追加<sum_last_turn>摘要提示
# 5. 上下文溢出,执行记忆筛选重建
if len(C) > B:
# 构造筛选专用上下文
c_sel = C + 序列化全部记忆M + 筛选专用指令x_sel
a_sel ~ πθ(·|c_sel)
将a_sel存入G并标记为筛选操作token
# 解析、修复筛选索引
I = ρ_B,S,K(解析(a_sel), M)
保存选中轮次、摘要、筛选token掩码(训练使用)
# 分段缓存重置,重建全新受限上下文
G_all = G_all ∪ {G}
C = x + 序列化M[I] + 连续推演提示
G = ∅
循环结束
输出:带信用掩码标记的全部生成片段集合G_all
5 实验
5.1 实验基础配置
(1)基准与对比基线
- 主训练基准:BrowseComp-Plus(长时序检索问答,训练集747条,验证集83条);
- 对比方法:GRPO(无记忆压缩原生基线)、SUPO(滚动摘要上下文管理);
- 基座模型:稠密Qwen3-32B-Instruct、稀疏MoE Qwen3-30B-A3B-Instruct;
- 工具环境:search检索、open_page页面读取、finish终止推演;检索后端Qwen3-Embedding-8B,单次返回top5文档,单文档最大16000字符,支持5并行工具调用。
(2)通用训练超参
- 上下文预算:32k token;每prompt采样8条轨迹;单轮最多5次压缩分段,最大有效交互token 192k;
- ECHO专属超参:自动保留最新3轮,单次筛选最多8条历史记忆;
- 硬件:4节点×8GPU异步训练流水线,陈旧度阈值0.5;
- 评估指标:离线验证Pass@1、单轮平均交互数、轨迹总token量、单条轨迹分段数、生成耗时。
(3)零样本泛化基准(无微调直接测试)
- 多目标问答:2/4/8/16子目标复合问答,基于HotpotQA、2WikiMultihopQA等数据集构造;
- 代码生成:CodeGym交互API编程、LoCoBench-Agent百万级代码库工程任务;
- 深度信息检索:GAIA通用助手、HLE高阶专业问答、Frames多跳冲突证据融合。
5.2 主实验结果(BrowseComp-Plus,Qwen3-32B-Instruct)
| 方法 | 离线验证准确率 | 平均单轨迹交互轮次 | 轨迹分段比例 | 单轨迹平均分段数 |
|---|---|---|---|---|
| GRPO | 28.9% | 11.2 | - | - |
| SUPO(滚动摘要) | 36.1% | 62.5 | 85.5% | 4.18 |
| ECHO | 43.4% | 45.3 | 57.8% | 3.13 |
核心结论:
- GRPO上下文无压缩,轮次少但探索不足,准确率提前饱和;
- SUPO依靠摘要拉长推演,但冗余检索造成轮次爆炸、轨迹开销大幅上升;
- ECHO兼顾准确率与效率:高于SUPO 7.3个百分点,交互轮次、轨迹体积显著降低,实现"高准确率+轻量化推演"。
5.3 消融实验
消融A:记忆模块消融
- 将模型自主筛选替换为静态语义Top-K检索:准确率大幅下降,证明基于当前任务状态的动态选择优于固定相似度检索;
- 将轻量化单轮摘要替换完整原始观测:性能无明显提升,证明ECHO增益来源于可学习筛选而非文本长度。
消融B:溯源信用分配消融
- ECHO w/o Traceable CA:移除溯源掩码,全部token统一分配优势,准确率、训练稳定性下降;
- ECHO w/o Traceable CA + 轮次级重要性采样:粗粒度轮次梯度进一步加剧冗余搜索,轮次膨胀、精度下跌;
证明溯源掩码定向梯度是性能提升关键。
5.4 零样本泛化结果(Qwen3-32B-Instruct,平均得分)
| 方法 | 多目标问答平均 | 代码生成平均 | 深度检索平均 | 全部任务平均 |
|---|---|---|---|---|
| GRPO | 35.8 | 50.2 | 19.6 | 33.6 |
| SUPO | 37.1 | 51.7 | 20.4 | 34.8 |
| ECHO(Top-K检索) | 39.2 | 55.0 | 25.7 | 38.2 |
| ECHO(完整方案) | 42.7 | 55.9 | 26.5 | 40.2 |
MoE基座Qwen3-30B-A3B-Instruct趋势一致:ECHO平均得分30.5,SUPO仅26.9;在多目标、长证据依赖任务提升最明显。
5.5 MoE基座鲁棒性验证
SUPO在MoE模型训练至50步后性能崩塌:摘要坍缩引发海量无效检索,准确率跌至13.3%;ECHO全程稳定收敛,最终准确率35.0%,证明框架不依赖稠密模型结构,稀疏MoE同样适配。
6 结论
本文提出ECHO选择性轮次记忆框架,统一解决长时序智能体RL的历史坍缩、梯度溯源断裂两大问题:
- 执行侧:每轮交互生成带独立源索引记忆,模型自主筛选构建受限上下文,避免全局摘要坍缩;
- 训练侧:复用筛选索引构建溯源梯度掩码,仅对支撑正确答案的证据、筛选动作分配正向奖励,抑制冗余检索。
在BrowseComp-Plus上ECHO大幅超越GRPO、SUPO基线,消融验证记忆筛选、溯源信用分配为核心增益模块;跨多领域零样本测试证明框架具备强泛化能力,稠密、MoE两类基座均稳定提升。研究证明:上下文管理保留原始交互溯源信息,是实现高效长时序检索智能体的关键路径。
7 局限性与未来工作
- 溯源近似约束:仅对最终上下文选中的轮次分配梯度,未递归追溯多层依赖历史;超深度嵌套任务下部分关键早期交互无法获得梯度,后续可实现完整递归溯源链路;
- 场景覆盖有限:实验仅基于文本工具检索智能体,GUI交互、具身智能、多智能体场景待验证;
- 计算开销:记忆筛选、单轮摘要增加前向推理开销,未来可优化索引、轻量化筛选模块降低延时。
附录D 全部提示词完整脚本
D.1 BrowseComp-Plus基础提示
与SUPO基线完全一致,采用Hermes标准<tool_call></tool_call>工具调用格式,包含问题拆解、迭代检索、证据整合、答案校验完整流程。
D.2 ECHO专属提示指令
1)单轮摘要强制提示(系统提示追加)
完成工具返回读取后,助手回复必须在所有工具调用前包含<sum_last_turn>单句事实摘要</sum_last_turn>,仅总结本轮工具结果,摘要完成后继续生成工具调用或finish结束推演,不可中途终止。
简易提示短句:Briefly record the latest tool result in <sum_last_turn>...</sum_last_turn>, then continue with the next action.
2)记忆筛选专用系统提示
当前上下文已满,筛选历史交互轮次中解决任务必需的记录,遵循规则:
1. 仅输出<selection></selection>标签内内容,禁止工具调用、直接回答问题;
2. 格式:turn_N: 筛选理由,每行一条;无需要历史轮次则置空;
3. 优先选择未被自动保留的早期交互,仅保留含可复用证据、约束、失败尝试、后续规划的轮次;
4. 最多选择8条历史,最新3轮会自动保留,无需重复选择。
筛选输入附带全部有效轮次列表,限定索引范围turn_0 ~ turn_{n_hist-1}。
资源汇总
- 论文原文:https://arxiv.org/html/2606.31650v1
- 开源代码仓库:https://github.com/xiezijun714-lang/Echo
- 基准数据集:BrowseComp-Plus(arXiv:2508.06600)、GAIA、HLE、CodeGym、LoCoBench-Agent
- 基座模型:Qwen3-32B-Instruct、Qwen3-30B-A3B-Instruct、Qwen3-Embedding-8B
- 训练框架:多机多GPU异步GRPO强化学习流水线,支持稠密/MoE模型统一训练