ECHO：面向智能体强化学习的选择性轮次记忆框架——剪枝执行、溯源学习

ECHO：面向智能体强化学习的选择性轮次记忆框架------剪枝执行、溯源学习

论文原始链接 ：https://arxiv.org/html/2606.31650v1

开源代码地址 ：https://github.com/xiezijun714-lang/Echo

发布信息：arXiv:2606.31650v1 $cs.LG$ ，2026-06-30，开源协议CC BY 4.0

摘要

长时序语言智能体需要反复调用工具、积累证据，并在有限上下文窗口约束下完成决策。现有上下文管理方案通过截断远期历史、滚动摘要压缩历史、筛选轻量化记忆状态实现长轨迹推演，但存在两大耦合缺陷：

随交互轮次增加，历史观测被逐步删除或压缩，策略难以复用细粒度证据；
原始交互轮次失去索引溯源能力，基于最终结果的强化学习（RL）无法将策略更新与支撑正确答案的证据精准对齐。

本文提出ECHO（选择性轮次记忆框架），基于源索引重建机制同时解决历史坍缩与可溯源学习两大痛点：

将每一轮完整环境交互压缩为轻量化记忆记录；
通过筛选记忆记录重建受限上下文窗口；
复用记忆源索引，将正向结果奖励精准分配给支撑正确答案的证据与记忆筛选动作。

在长时序检索基准BrowseComp-Plus上，ECHO离线验证准确率达43.4%，显著优于GRPO（28.9%）与滚动摘要基线SUPO（36.1%），同时交互轮次、轨迹总token量均低于SUPO。基于稠密Qwen3-32B-Instruct、稀疏MoE Qwen3-30B-A3B-Instruct两类基座模型，ECHO在多目标问答、代码生成、深度信息检索零样本任务上均实现统一泛化提升。

1 引言

大语言模型（LLM）智能体通过推理、工具调用、环境反馈交替完成多轮交互。基于可验证最终结果的强化学习（GRPO等）已成为检索、代码生成、工具调用、深度研究类智能体的主流优化方案。但随交互时序拉长，历史交互记录成为执行与训练双重瓶颈：

执行瓶颈：智能体需在有限上下文内留存有效工具观测；
训练瓶颈：算法需要定位支撑最终答案的早期交互轮次，分配梯度奖励。

现有上下文管理方案的固有缺陷

现有方法通过截断、摘要、检索、编辑历史拓展推演长度，但存在耦合短板：

细粒度证据丢失：远期观测被删除/压缩，关键细节无法复用；
溯源链路断裂：滚动摘要等坍缩式方案仅保留摘要文本，无法追溯原始交互轮次；
奖励分配噪声：标准多轮RL将轨迹优势均匀分配至全部生成token，冗余检索、无效推理会与有效证据同步得到正向强化，造成轮次爆炸、轨迹token膨胀、训练收敛缓慢。

本文核心思路与贡献

ECHO统一上下文重建与可溯源信用分配流程：每轮工具交互生成带源索引的记忆单元，上下文溢出时由模型自主筛选有效记忆重建窗口；筛选使用的源索引直接作为奖励分配依据，仅对有效证据、答案、记忆筛选动作分配正向梯度。

四大核心贡献：

提出统一上下文管理多轮RL建模接口，区分历史状态、受限上下文重建、源级可追溯性，清晰拆解坍缩式方案损失溯源信息的底层问题；
设计ECHO选择性轮次记忆重建机制，不全局压缩历史，每轮交互独立存储带源索引记忆，通过模型学习筛选构建受限上下文；
提出溯源引导的token级信用分配，依托记忆源索引，将正向结果梯度精准路由至最终答案、选中历史证据、记忆摘要、记忆筛选动作；
在BrowseComp-Plus及多类零样本基准完成验证，稠密/MoE基座下均实现准确率提升，同时降低交互轮次与轨迹存储开销；消融实验证明记忆筛选、溯源信用分配两大模块缺一不可。

2 相关工作

2.1 长时序语言智能体强化学习

语言智能体建模为多轮决策器，基于可验证奖励的RL广泛用于检索、函数调用、代码任务。长时序基准要求智能体多轮检索、交叉比对证据、验证答案，但标准结果导向RL未定义压缩后的历史如何为奖励分配提供溯源依据。

2.2 上下文管理与智能体记忆

主流方案：提示压缩、摘要、检索、外置记忆模块；外置记忆可跨交互读写，部分工作基于依赖图、子目标工作记忆优化存储；SAM等可恢复记忆方案通过轻量化线索召回原始轨迹。

现有局限：仅优化推理执行阶段，未关联最终结果奖励与原始交互轮次的溯源链路。

近年RL融合上下文管理工作：递归更新摘要、将记忆增删改查建模为策略动作、MemPO针对记忆片段单独优化优势。ECHO差异化优势：完整保留每轮交互源索引，复用上下文筛选索引作为奖励分配溯源路径。

2.3 长时序智能体RL信用分配

稀疏奖励下信用分配是经典难题，标准GRPO将统一轨迹优势施加于全部生成token，长时序工具任务中噪声极大。

前沿改进方向：轮次级优势估计、事后重打分、里程碑分割、分层规划信用、熵调节优势权重。

上述方法仅优化时间/不确定性维度奖励分配，与上下文重建流程解耦；ECHO为互补方案：利用上下文重建暴露的源索引构建溯源掩码，定向分配梯度。

3 前置理论基础

3.1 面向智能体RL的多轮GRPO框架

设初始任务提示为xxx；交互步ttt，策略基于受限上下文ctc_tct采样动作at∼πθ(⋅∣ct)a_t \sim\pi_{\theta}(\cdot|c_t)at∼πθ(⋅∣ct)；动作包含推理、工具调用、上下文管理操作、最终答案。

单次交互轮次：ut=(at,ot)u_t=(a_t,o_t)ut=(at,ot)，oto_tot为环境观测（工具返回/空）；

Ht=(u1,...,ut−1)H_t=(u_1,...,u_{t-1})Ht=(u1,...,ut−1)：ttt步前完整交互历史；

完整轨迹：τ=(u1,...,uT)\tau=(u_1,...,u_T)τ=(u1,...,uT)；仅轨迹末尾存在稀疏奖励R(τ)R(\tau)R(τ)。

GRPO分组采样NNN条完整轨迹，单条轨迹分组相对优势：

A(n)=R(τ(n))−mean⁡({R(τ(i))}i=1N)std⁡({R(τ(i))}i=1N)+ϵA^{(n)}=\frac{R(\tau^{(n)})-\operatorname{mean}(\{R(\tau^{(i)})\}{i=1}^N)}{\operatorname{std}(\{R(\tau^{(i)})\}{i=1}^N)+\epsilon}A(n)=std({R(τ(i))}i=1N)+ϵR(τ(n))−mean({R(τ(i))}i=1N)

简化多轮策略梯度目标（忽略裁剪、KL惩罚等实现项）：

JMT(θ)=Ex∼D $1N\sumn=1N\sumt=1TnA(n)logπθ(at(n)∣ct(n))$ \mathcal{J}{\mathrm{MT}}(\theta)=\mathbb{E}{x\sim\mathcal{D}}\left $\\frac{1}{N}\\sum_{n=1}\^{N}\\sum_{t=1}\^{T_{n}}A\^{(n)}\\log\\pi_{\\theta}(a_{t}\^{(n)}\\mid c_{t}\^{(n)})\\right$ JMT(θ)=Ex∼D $N1n=1\sumNt=1\sumTnA(n)logπθ(at(n)∣ct(n))$

区分两个关键概念：

HtH_tHt：环境侧完整交互历史（无长度限制）；
ctc_tct：模型输入受限策略上下文（长度严格小于预算BBB）。

3.2 上下文管理多轮推演统一接口

上下文预算BBB为策略上下文最大token长度，任意交互步需满足∣ct∣≤B|c_t|\le B∣ct∣≤B。将完整轨迹切分为多个上下文分段：

0=K0(n)<K1(n)<⋯<KJn(n)=Tn0=K_{0}^{(n)}<K_{1}^{(n)}<\dots<K_{J_{n}}^{(n)}=T_{n}0=K0(n)<K1(n)<⋯<KJn(n)=Tn

第jjj分段前置完整历史、分段内局部历史：

HKj−1(n)(n)=(u1(n),...,uKj−1(n)(n)),Hj,t(n),loc=(uKj−1(n)+1(n),...,ut−1(n))H_{K_{j-1}^{(n)}}^{(n)}=(u_1^{(n)},\dots,u_{K_{j-1}^{(n)}}^{(n)}),\quad H_{j,t}^{(n),\mathrm{loc}}=(u_{K_{j-1}^{(n)}+1}^{(n)},\dots,u_{t-1}^{(n)})HKj−1(n)(n)=(u1(n),...,uKj−1(n)(n)),Hj,t(n),loc=(uKj−1(n)+1(n),...,ut−1(n))

上下文管理器M\mathcal{M}M、重建函数Φ\PhiΦ构成通用建模：

zj(n)=M ⁣(HKj−1(n)(n)),cj,t(n)=x⊕Φ ⁣(zj(n),Hj,t(n),loc;B)z_{j}^{(n)}=\mathcal{M}\!\left(H_{K_{j-1}^{(n)}}^{(n)}\right),\qquad c_{j,t}^{(n)}=x\oplus\Phi\!\left(z_{j}^{(n)},H_{j,t}^{(n),\mathrm{loc}};B\right)zj(n)=M(HKj−1(n)(n)),cj,t(n)=x⊕Φ(zj(n),Hj,t(n),loc;B)

zj(n)z_j^{(n)}zj(n)：压缩历史状态（原始记录/摘要/记忆集合）；
⊕\oplus⊕：文本拼接/模型条件输入；
Φ\PhiΦ：在预算约束下融合历史状态与近期局部交互。

代入梯度目标得到上下文感知RL损失：

JCM(θ)=Ex∼D $1N\sumn=1N\sumj=1Jn\sumt=Kj-1(n)+1Kj(n)A(n)logπθ(at(n)∣x\oplusΦ ,(zj(n),Hj,t(n),loc;B))$ \mathcal{J}{\mathrm{CM}}(\theta)=\mathbb{E}{x\sim\mathcal{D}}\left $\\frac{1}{N}\\sum_{n=1}\^{N}\\sum_{j=1}\^{J_{n}}\\sum_{t=K_{j-1}\^{(n)}+1}\^{K_{j}\^{(n)}}A\^{(n)}\\log\\pi_{\\theta}\\left(a_{t}\^{(n)}\\mid x\\oplus\\Phi\\!\\left(z_{j}\^{(n)},H_{j,t}\^{(n),\\mathrm{loc}};B\\right)\\right)\\right$ JCM(θ)=Ex∼D N1n=1∑Nj=1∑Jnt=Kj−1(n)+1∑Kj(n)A(n)logπθ(at(n)∣x⊕Φ(zj(n),Hj,t(n),loc;B))

表1 主流上下文推演方案对比（溯源能力区分）

策略类型	托管历史	上下文重建方式	源级可追溯性	代表方法
追加式	完整历史前缀	全历史拼接	完全保留	原生Prompt
截断式	仅保留最新后缀	仅近期交互	完全丢失	滑动窗口
递归压缩	迭代更新摘要状态zjz_jzj	摘要渲染+局部近期	完全坍缩	SUPO、MemAgent
剪枝/省略	原始历史子集	筛选子集渲染	部分保留	Agent-Omit
记忆动作	策略编辑记忆库	记忆集合渲染	间接追溯	MemAct、Memory-R1
选择性轮次记忆（ECHO）	带索引记忆集合Mj={ei}M_j=\{e_i\}Mj={ei}	选中记忆+局部近期	源索引完整保留	本文ECHO

4 方法：ECHO整体框架

ECHO核心逻辑分为两大模块：剪枝执行（选择性记忆重建） 、溯源学习（溯源引导信用分配）。

4.1 动机：上下文重建与溯源能力的矛盾

滚动摘要（SUPO）典型缺陷：虽然支持超长推演，但原始交互轮次被融合丢失，训练时无法区分有效证据与冗余检索；实证表现为交互轮次爆炸、响应长度、生成耗时、轨迹token量同步膨胀。

ECHO设计目标：在压缩上下文满足推理约束的同时，保留每轮交互的独立源索引，为梯度分配提供完整溯源链路。

4.2 剪枝执行：选择性轮次记忆重建

将单轮局部压缩与全局上下文筛选解耦，不合并坍缩历史，每轮交互独立存储可索引记忆单元。

（1）带源索引轮次记忆存储

单轮完整交互ui=(ai,oi)u_i=(a_i,o_i)ui=(ai,oi)生成轻量化局部摘要sis_isi：

si∼πθ(⋅∣cisum),mi=parse⁡(si)s_{i}\sim\pi_{\theta}(\cdot\mid c_{i}^{\mathrm{sum}}),\qquad m_{i}=\operatorname{parse}(s_{i})si∼πθ(⋅∣cisum),mi=parse(si)

cisumc_i^{\mathrm{sum}}cisum包含本轮交互与专用摘要指令，仅提炼单轮关键信息。

单条记忆记录：ei=(i,αi,mi)e_{i}=(i,\alpha_{i},m_{i})ei=(i,αi,mi)

iii：原始交互轮次源索引（核心溯源标识）；
αi\alpha_iαi：工具调用/动作轻量化描述；
mim_imi：本轮摘要线索；
全局记忆集合：Mj=M(HKj−1)={ei}i≤Kj−1M_{j}=\mathcal{M}(H_{K_{j-1}})=\{e_{i}\}{i\le K{j-1}}Mj=M(HKj−1)={ei}i≤Kj−1。

记忆集合无坍缩：每一条记忆永久绑定原始交互轮次，即使原始观测超出上下文窗口仍可索引。

（2）自回归记忆筛选

设置超参：SSS模型最大筛选历史轮次、KKK自动保留最新轮次。上下文溢出触发筛选阶段：

cjsel=x⊕Φlocal(Hjbd;B)⊕render⁡list(Mj)⊕xselc_{j}^{\mathrm{sel}}=x\oplus\Phi_{\mathrm{local}}(H_{j}^{\mathrm{bd}};B)\oplus\operatorname{render}{\mathrm{list}}(M{j})\oplus x_{\mathrm{sel}}cjsel=x⊕Φlocal(Hjbd;B)⊕renderlist(Mj)⊕xsel

模型输出筛选动作ajsela_{j}^{\mathrm{sel}}ajsel，解析得到待保留索引集合I^jsel\widehat{\mathcal{I}}^{\mathrm{sel}}{j}I jsel；修复算子ρB,S,K\rho{B,S,K}ρB,S,K完成去重、越界过滤、预算约束裁剪，合并自动保留的最新KKK轮。

（3）受限上下文重建

基于筛选索引提取记忆子集，拼接任务提示、选中记忆、分段内近期交互构建本轮模型输入：

Mj $I\^jsel$ ={ei∈Mj∣i∈I^jsel}M_{j} $\\widehat{\\mathcal{I}}\^{\\mathrm{sel}}_{j}$ =\{e_{i}\in M_{j}\mid i\in\widehat{\mathcal{I}}^{\mathrm{sel}}_{j}\}Mj $I jsel$ ={ei∈Mj∣i∈I jsel}

cj,t=x⊕render⁡ ⁣(Mj $I\^jsel$ )⊕Φlocal(Hj,tloc;B),∣cj,t∣≤Bc_{j,t}=x\oplus\operatorname{render}\!\left(M_{j} $\\widehat{\\mathcal{I}}\^{\\mathrm{sel}}_{j}$ \right)\oplus\Phi_{\mathrm{local}}(H_{j,t}^{\mathrm{loc}};B),\quad|c_{j,t}|\leq Bcj,t=x⊕render(Mj $I jsel$ )⊕Φlocal(Hj,tloc;B),∣cj,t∣≤B

筛选索引I^jsel\widehat{\mathcal{I}}^{\mathrm{sel}}_{j}I jsel作为后续训练的溯源凭证。

4.3 溯源学习：溯源引导信用分配

GRPO/SUPO将统一轨迹优势分配至全部生成token，摘要、冗余检索同步获得正向梯度；ECHO依托筛选索引构建token级硬掩码，仅对有效链路分配正向奖励。

1）Token信用掩码构建

设Isrc(n)\mathcal{I}_{\mathrm{src}}^{(n)}Isrc(n)为最终上下文选中的历史源索引；定义四类标识：

gq(n)=1g_q^{(n)}=1gq(n)=1：最终答案token；
dq(n)d_q^{(n)}dq(n)：属于选中源轮次的动作token；
fq(n)f_q^{(n)}fq(n)：选中轮次对应的摘要token；
bq(n)=1b_q^{(n)}=1bq(n)=1：记忆筛选操作生成token。

掩码公式：

μq(n)=1{gq(n)=1 ∨ dq(n)∈Isrc(n) ∨ fq(n)∈Isrc(n) ∨ bq(n)=1}\mu_{q}^{(n)}=\mathbf{1}\left\{g_{q}^{(n)}=1\;\vee\;d_{q}^{(n)}\in\mathcal{I}{\mathrm{src}}^{(n)}\;\vee\;f{q}^{(n)}\in\mathcal{I}{\mathrm{src}}^{(n)}\;\vee\;b{q}^{(n)}=1\right\}μq(n)=1{gq(n)=1∨dq(n)∈Isrc(n)∨fq(n)∈Isrc(n)∨bq(n)=1}

2）正向溯源优势路由

仅对分组相对优势为正的轨迹分配溯源梯度，过滤无效/错误轨迹噪声：

A~q(n)=A+(n)μq(n),A+(n)=max⁡(A(n),0)\widetilde{A}{q}^{(n)}=A{+}^{(n)}\mu_{q}^{(n)},\qquad A_{+}^{(n)}=\max(A^{(n)},0)A q(n)=A+(n)μq(n),A+(n)=max(A(n),0)

3）ECHO单轨迹损失函数

仅掩码为1的token参与梯度更新：

KaTeX parse error: Undefined control sequence: \textsc at position 14: \mathcal{L}_{\̲t̲e̲x̲t̲s̲c̲{ECHO}}^{(n)}(\...

整体目标对全部任务、采样轨迹组求均值，省略裁剪、KL散度等工程实现项。

附录B 算法1：ECHO推演完整流程

复制代码

输入：任务提示x，策略πθ，工具集T，上下文预算B，自动保留近期轮K，单次筛选上限S
初始化：C ← x；记忆集合M=∅；生成片段缓存G=∅；总片段集合G_all=∅；待摘要标记p=∅；轮次计数器i=0
while 推演未终止:
    # 1. 基于当前上下文采样动作
    a_t ~ πθ(·|C)
    将a_t追加至上下文C，token存入G
    # 2. 完成上一轮交互后生成单轮摘要存入记忆
    if p不为空:
        (i_p, α_ip) = p
        m_ip = 模型基于本轮交互生成单轮摘要
        M = M ∪ {e_ip=(i_p, α_ip, m_ip)}
        将G内摘要token标记为源轮i_p的线索token
        p = ∅
    # 3. 解析工具调用
    解析a_t中的工具指令
    if 无工具调用（输出最终答案）:
        将G内token标记为最终答案token
        G_all = G_all ∪ {G}
        break
    # 4. 执行工具，更新交互记录
    α_i = 工具调用轻量化描述
    将G内动作token标记为源轮i的交互token
    调用工具集T，获取观测o_i
    将o_i追加至上下文C
    p = (i, α_i)
    i = i + 1
    向C追加<sum_last_turn>摘要提示
    # 5. 上下文溢出，执行记忆筛选重建
    if len(C) > B:
        # 构造筛选专用上下文
        c_sel = C + 序列化全部记忆M + 筛选专用指令x_sel
        a_sel ~ πθ(·|c_sel)
        将a_sel存入G并标记为筛选操作token
        # 解析、修复筛选索引
        I = ρ_B,S,K(解析(a_sel), M)
        保存选中轮次、摘要、筛选token掩码（训练使用）
        # 分段缓存重置，重建全新受限上下文
        G_all = G_all ∪ {G}
        C = x + 序列化M[I] + 连续推演提示
        G = ∅
循环结束
输出：带信用掩码标记的全部生成片段集合G_all

5 实验

5.1 实验基础配置

（1）基准与对比基线

主训练基准：BrowseComp-Plus（长时序检索问答，训练集747条，验证集83条）；
对比方法：GRPO（无记忆压缩原生基线）、SUPO（滚动摘要上下文管理）；
基座模型：稠密Qwen3-32B-Instruct、稀疏MoE Qwen3-30B-A3B-Instruct；
工具环境：search检索、open_page页面读取、finish终止推演；检索后端Qwen3-Embedding-8B，单次返回top5文档，单文档最大16000字符，支持5并行工具调用。

（2）通用训练超参

上下文预算：32k token；每prompt采样8条轨迹；单轮最多5次压缩分段，最大有效交互token 192k；
ECHO专属超参：自动保留最新3轮，单次筛选最多8条历史记忆；
硬件：4节点×8GPU异步训练流水线，陈旧度阈值0.5；
评估指标：离线验证Pass@1、单轮平均交互数、轨迹总token量、单条轨迹分段数、生成耗时。

（3）零样本泛化基准（无微调直接测试）

多目标问答：2/4/8/16子目标复合问答，基于HotpotQA、2WikiMultihopQA等数据集构造；
代码生成：CodeGym交互API编程、LoCoBench-Agent百万级代码库工程任务；
深度信息检索：GAIA通用助手、HLE高阶专业问答、Frames多跳冲突证据融合。

5.2 主实验结果（BrowseComp-Plus，Qwen3-32B-Instruct）

方法	离线验证准确率	平均单轨迹交互轮次	轨迹分段比例	单轨迹平均分段数
GRPO	28.9%	11.2	-	-
SUPO（滚动摘要）	36.1%	62.5	85.5%	4.18
ECHO	43.4%	45.3	57.8%	3.13

核心结论：

GRPO上下文无压缩，轮次少但探索不足，准确率提前饱和；
SUPO依靠摘要拉长推演，但冗余检索造成轮次爆炸、轨迹开销大幅上升；
ECHO兼顾准确率与效率：高于SUPO 7.3个百分点，交互轮次、轨迹体积显著降低，实现"高准确率+轻量化推演"。

5.3 消融实验

消融A：记忆模块消融

将模型自主筛选替换为静态语义Top-K检索：准确率大幅下降，证明基于当前任务状态的动态选择优于固定相似度检索；
将轻量化单轮摘要替换完整原始观测：性能无明显提升，证明ECHO增益来源于可学习筛选而非文本长度。

消融B：溯源信用分配消融

ECHO w/o Traceable CA：移除溯源掩码，全部token统一分配优势，准确率、训练稳定性下降；
ECHO w/o Traceable CA + 轮次级重要性采样：粗粒度轮次梯度进一步加剧冗余搜索，轮次膨胀、精度下跌；
证明溯源掩码定向梯度是性能提升关键。

5.4 零样本泛化结果（Qwen3-32B-Instruct，平均得分）

方法	多目标问答平均	代码生成平均	深度检索平均	全部任务平均
GRPO	35.8	50.2	19.6	33.6
SUPO	37.1	51.7	20.4	34.8
ECHO（Top-K检索）	39.2	55.0	25.7	38.2
ECHO（完整方案）	42.7	55.9	26.5	40.2

MoE基座Qwen3-30B-A3B-Instruct趋势一致：ECHO平均得分30.5，SUPO仅26.9；在多目标、长证据依赖任务提升最明显。

5.5 MoE基座鲁棒性验证

SUPO在MoE模型训练至50步后性能崩塌：摘要坍缩引发海量无效检索，准确率跌至13.3%；ECHO全程稳定收敛，最终准确率35.0%，证明框架不依赖稠密模型结构，稀疏MoE同样适配。

6 结论

本文提出ECHO选择性轮次记忆框架，统一解决长时序智能体RL的历史坍缩、梯度溯源断裂两大问题：

执行侧：每轮交互生成带独立源索引记忆，模型自主筛选构建受限上下文，避免全局摘要坍缩；
训练侧：复用筛选索引构建溯源梯度掩码，仅对支撑正确答案的证据、筛选动作分配正向奖励，抑制冗余检索。

在BrowseComp-Plus上ECHO大幅超越GRPO、SUPO基线，消融验证记忆筛选、溯源信用分配为核心增益模块；跨多领域零样本测试证明框架具备强泛化能力，稠密、MoE两类基座均稳定提升。研究证明：上下文管理保留原始交互溯源信息，是实现高效长时序检索智能体的关键路径。

7 局限性与未来工作

溯源近似约束：仅对最终上下文选中的轮次分配梯度，未递归追溯多层依赖历史；超深度嵌套任务下部分关键早期交互无法获得梯度，后续可实现完整递归溯源链路；
场景覆盖有限：实验仅基于文本工具检索智能体，GUI交互、具身智能、多智能体场景待验证；
计算开销：记忆筛选、单轮摘要增加前向推理开销，未来可优化索引、轻量化筛选模块降低延时。

附录D 全部提示词完整脚本

D.1 BrowseComp-Plus基础提示

与SUPO基线完全一致，采用Hermes标准<tool_call></tool_call>工具调用格式，包含问题拆解、迭代检索、证据整合、答案校验完整流程。

D.2 ECHO专属提示指令

1）单轮摘要强制提示（系统提示追加）

完成工具返回读取后，助手回复必须在所有工具调用前包含<sum_last_turn>单句事实摘要</sum_last_turn>，仅总结本轮工具结果，摘要完成后继续生成工具调用或finish结束推演，不可中途终止。

简易提示短句：Briefly record the latest tool result in <sum_last_turn>...</sum_last_turn>, then continue with the next action.

2）记忆筛选专用系统提示

复制代码

当前上下文已满，筛选历史交互轮次中解决任务必需的记录，遵循规则：
1. 仅输出<selection></selection>标签内内容，禁止工具调用、直接回答问题；
2. 格式：turn_N: 筛选理由，每行一条；无需要历史轮次则置空；
3. 优先选择未被自动保留的早期交互，仅保留含可复用证据、约束、失败尝试、后续规划的轮次；
4. 最多选择8条历史，最新3轮会自动保留，无需重复选择。

筛选输入附带全部有效轮次列表，限定索引范围turn_0 ~ turn_{n_hist-1}。

资源汇总

论文原文：https://arxiv.org/html/2606.31650v1
开源代码仓库：https://github.com/xiezijun714-lang/Echo
基准数据集：BrowseComp-Plus（arXiv:2508.06600）、GAIA、HLE、CodeGym、LoCoBench-Agent
基座模型：Qwen3-32B-Instruct、Qwen3-30B-A3B-Instruct、Qwen3-Embedding-8B
训练框架：多机多GPU异步GRPO强化学习流水线，支持稠密/MoE模型统一训练