面向大语言模型智能体的经验规则与策略联合学习方法

面向大语言模型智能体的经验规则与策略联合学习方法

原文链接:https://arxiv.org/html/2606.27136v1

摘要

针对多步交互式环境下的大语言模型(LLM)智能体,如何高效复用累积交互经验是核心难题。现有方案将经验的两种使用方式完全割裂:

  1. 经验外置为自然语言规则,推理时作为提示词输入;优点是可解释,但会随策略迭代失效、规则过时;
  2. 利用交互轨迹与反馈微调模型参数;优点是全局优化策略,但稀疏奖励场景下难以针对性修正局部错误。

本文提出JERP(经验规则与策略联合学习),基于同一批交互轨迹同步更新长期经验规则库与模型策略。决策阶段,JERP检索任务相关规则,结合交互后,采集的轨迹同时用于两点优化:

  1. 基于组相对优势更新策略参数;
  2. 通过对比当前轨迹与成功参考轨迹,迭代修正规则库。

该耦合机制让规则库与策略同步演化,同时将稳定、经过验证的行为模式逐步沉淀至模型参数。在AlfWorld、WebShop两大交互式基准环境的实验证明:针对复杂多步骤交互任务,JERP能够稳定提升智能体决策性能。

一、引言

大语言模型凭借海量通用知识、上下文学习与语言推理能力,成为通用智能体的基础底座,广泛应用网页导航、具身交互、工具调用等场景。这类场景下任务无法单次输出正确答案,智能体需要持续探索、纠错、迭代策略直至完成目标,核心痛点是如何累积交互经验并指导后续决策

现有经验复用分为两条独立技术路线,二者存在互补缺陷:

路线1:提示工程外置经验(规则/反思记忆)

将历史交互总结为自然语言反思、操作规则、操作手册,存入外部记忆库,后续任务直接拼接进提示词。

优势:规则可读、可编辑、轻量化;

缺陷:规则与模型策略解耦,模型迭代后规则会失效、误导决策;仅依赖上下文,无法从参数层面固化行为。

路线2:强化学习微调优化策略

基于交互轨迹、环境反馈、人类偏好构造损失函数,直接更新LLM参数。代表方案:PPO、GRPO、DPO、GiGPO。

优势:全局优化智能体行为;

缺陷:复杂交互任务奖励稀疏,局部关键错误无法得到及时、针对性修正,缺少可审计、可人工干预的显式经验载体。

本文核心思路

同一批交互数据同时支撑显式规则更新隐式策略优化,即JERP框架:

  1. 维护动态更新的长期经验规则库,每轮决策选取子集作为工作规则,与任务、交互历史共同构成输入;
  2. 单轮交互生成的轨迹组双向复用:一方面用于组相对策略梯度更新,另一方面通过对比反思更新规则库;
  3. 实现规则库与策略同步迭代,高频有效行为既保存在可解释规则中,也逐步固化进模型参数。

图1 三种范式对比说明

(a) 纯提示优化范式:仅维护外部规则,无模型参数更新;

(b) 纯参数优化范式:仅用轨迹微调模型,无显式可维护规则库;

© JERP联合范式:轨迹同时用于参数梯度更新 + 规则库对比式迭代。

二、相关工作

2.1 基于提示工程的经验复用

该方向核心是将交互经验外置存储,跨episode复用:

  1. 反思记忆类:Reflexion将失败交互生成自然语言反思存入记忆;Generative Agents、MemGPT、MemoryBank研究长时记忆存储、检索、维护机制;
  2. 技能/规则蒸馏类:Voyager沉淀代码技能库跨任务迁移;ExpeL、AutoGuide、AutoManual将试错经验提炼为自然语言指导规则;
  3. 工作流与知识库:从交互中挖掘工具使用模式、业务工作流,构建长期经验知识库、经验回放池。

现有工作共性缺陷:规则复用与模型参数学习完全分离,未解决策略迭代后规则失效的同步更新问题。

2.2 基于强化微调的LLM策略优化

该方向利用交互轨迹构造优化信号,更新模型参数:

  1. 基础流水线:InstructGPT提出SFT→奖励模型训练→PPO三阶段人类反馈微调;
  2. 轻量化组优化:GRPO同组样本估算优势,无需独立价值模型;DPO将人类反馈简化为直接偏好优化;DMPO适配多轮智能体任务;
  3. 长时序分层优化:GiGPO分层组策略优化,缓解稀疏奖励、细粒度信用分配难题。

该类方案缺陷:无显式可检索、可编辑的规则库,经验仅隐式存储在参数中,无法人工干预、审计。

三、问题定义与基础范式

本文建模多步部分可观测交互式任务,智能体除参数化策略外,还会检索外部经验规则拼接至提示词。本节定义规则增强交互流程,并介绍JERP依赖的两大基础范式:基于提示的经验规则学习、组相对策略优化。

3.1 部分可观测马尔可夫决策过程(POMDP)

任务实例空间D\mathcal{D}D,每个实例d∼p(d)d\sim p(d)d∼p(d);智能体与环境交互至任务终止或达到最大步数,交互建模为POMDP:

E=(S,A,O,P,Ω,R,γ,T)\mathcal{E}=\left(\mathcal{S},\mathcal{A},\mathcal{O},P,\Omega,R,\gamma,T\right)E=(S,A,O,P,Ω,R,γ,T)

各符号含义:

  • S\mathcal{S}S状态空间、A\mathcal{A}A动作空间、O\mathcal{O}O观测空间;
  • P(st+1∣st,at)P(s_{t+1}|s_t,a_t)P(st+1∣st,at)状态转移函数;Ω(ot+1∣st+1,at)\Omega(o_{t+1}|s_{t+1},a_t)Ω(ot+1∣st+1,at)观测函数;
  • R(st,at)R(s_t,a_t)R(st,at)即时奖励;γ∈[0,1)\gamma\in[0,1)γ∈[0,1)折扣因子;TTT单轮最大交互步数。
交互历史

ttt时刻历史记录全部观测与动作:

ht=(o0,a0,o1,...,at−1,ot)h_{t}=\left(o_{0},a_{0},o_{1},\dots,a_{t-1},o_{t}\right)ht=(o0,a0,o1,...,at−1,ot)

o0o_0o0为初始任务描述。

经验规则库与输入构造

为每个任务实例维护长期规则库K(d)\mathcal{K}(d)K(d),每轮episode选取容量可控子集作为工作规则集 K~(d)\widetilde{\mathcal{K}}(d)K (d)。

ttt时刻完整输入提示:

xt=(d,ht,K~(d))x_{t}=\left(d,h_{t},\widetilde{\mathcal{K}}(d)\right)xt=(d,ht,K (d))

参数化策略采样动作:

at∼πθ(⋅∣xt)a_{t}\sim\pi_{\theta}\left(\cdot\mid x_{t}\right)at∼πθ(⋅∣xt)

执行动作后返回奖励rtr_trt、下一观测ot+1o_{t+1}ot+1、终止标记zt+1∈{0,1}z_{t+1}\in\{0,1\}zt+1∈{0,1}。

完整轨迹τ\tauτ折扣回报:

G(τ)=∑t=0T−1γtrtG(\tau)=\sum_{t=0}^{T-1}\gamma^{t}r_{t}G(τ)=t=0∑T−1γtrt

联合优化目标

训练同时优化策略参数θ\thetaθ与全量规则库K\mathcal{K}K,目标期望回报:

J(θ,K)=Ed∼p(d)Eτ∼pθ(τ∣d,K)\[G(τ)]J\left(\theta,\mathcal{K}\right)=\mathbb{E}_{d\sim p\left(d\right)}\Bigl\\mathbb{E}_{\\tau\\sim p_{\\theta}\\left(\\tau\\mid d,\\mathcal{K}\\right)}\\bigl\[G\\left(\\tau\\right)\\bigr\Bigr]J(θ,K)=Ed∼p(d)Eτ∼pθ(τ∣d,K)\[G(τ)]

θ\thetaθ改变模型对提示的解读方式,K\mathcal{K}K改变输入提示内容,二者强耦合。

3.2 基于提示的经验规则学习范式

从同类任务轨迹样本{e1,...,eN}\{e_1,...,e_N\}{e1,...,eN}调用LLM提炼可复用行为指导,存入规则库:

K=ExtractRules⁡({ei}i=1N)\mathcal{K}=\operatorname{ExtractRules}\bigl(\{e_{i}\}_{i=1}^{N}\bigr)K=ExtractRules({ei}i=1N)

优势:规则可读、可独立修改,无需改动模型;

短板:策略迭代而规则静态,二者匹配度持续下降,因此需要将规则维护纳入训练循环。

3.3 组相对策略优化范式

给定任务实例ddd,旧策略πθold\pi_{\theta_{\mathrm{old}}}πθold采样NNN条完整轨迹,每条分配轨迹总奖励R(τi)R(\tau_i)R(τi);无需独立价值模型,通过同组内奖励对比构造优势信号:

A(τi)=GroupComputation⁡({R(τj)}j=1N)A\left(\tau_{i}\right)=\operatorname{GroupComputation}\bigl(\{R\left(\tau_{j}\right)\}_{j=1}^{N}\bigr)A(τi)=GroupComputation({R(τj)}j=1N)

代表方案GRPO对组内奖励标准化得到相对优势,适配长时序稀疏奖励场景。

JERP创新点:同一批轨迹组同时用于策略更新 + 规则库更新

四、经验规则与策略联合学习(JERP)

JERP在单轮训练循环内同步更新策略参数与长期经验规则库。每轮episode使用从长期库筛选的工作规则集驱动交互;生成轨迹组后分两阶段优化:阶段一组相对策略参数更新,阶段二基于对比反思更新规则库。

4.1 整体框架

每个任务实例ddd对应独立长期经验规则库:

K(d)={(zi,si)}i=1∣K(d)∣\mathcal{K}\left(d\right)=\left\{\left(z_{i},s_{i}\right)\right\}_{i=1}^{|\mathcal{K}(d)|}K(d)={(zi,si)}i=1∣K(d)∣

  • ziz_izi:自然语言规则文本;
  • sis_isi:规则效用分数,衡量对后续决策的参考价值。

训练完整流程:

  1. 每轮episode起始,按效用分降序取Top-k规则作为工作集K~(d)\widetilde{\mathcal{K}}(d)K (d);
  2. 输入提示拼接任务描述、交互历史、工作规则集,LLM智能体交互生成轨迹组Td\mathcal{T}_{d}Td;
  3. 轨迹组双向复用:
    • 阶段1:基于组内轨迹回报差异,执行GRPO梯度更新策略参数θ\thetaθ;
    • 阶段2:结合当前轨迹组Td\mathcal{T}_{d}Td与历史成功参考轨迹T+(d)\mathcal{T}^{+}(d)T+(d),对比反思生成规则编辑操作,更新长期规则库K(d)\mathcal{K}(d)K(d);
  4. 存入本轮成功轨迹至参考集T+(d)\mathcal{T}^{+}(d)T+(d),进入下一轮训练。

图2 JERP框架总览

  1. 检索模块:从长期规则库筛选Top-k高分规则作为本轮工作规则;
  2. 交互模块:任务+历史+规则构成提示输入,智能体与环境交互生成多条轨迹;
  3. 双分支优化:
    • 参数更新分支:计算组相对优势,梯度上升更新LLM参数;
    • 规则更新分支:对比成功/失败轨迹生成结构化编辑指令,增删改合并规则、调整效用分;
  4. 更新后的规则库迭代至下一轮交互。

4.2 轨迹采样

  1. 规则筛选机制:规则库按效用分降序排序,取前k条作为本轮固定工作规则集,单episode内不重新检索,避免上下文抖动;
    K~(d)=topk⁡(K(d),k)\widetilde{\mathcal{K}}\left(d\right)=\operatorname{topk}\bigl(\mathcal{K}\left(d\right),k\bigr)K (d)=topk(K(d),k)
    规则总数不足k则全部使用。
  2. 动作生成:每一步输入xi,t=(d,hi,t,K~(d))x_{i,t}=(d,h_{i,t},\widetilde{\mathcal{K}}(d))xi,t=(d,hi,t,K (d)),基于旧策略采样动作:
    ai,t∼πθold(⋅∣xi,t)a_{i,t}\sim\pi_{\theta_{\mathrm{old}}}(\cdot\mid x_{i,t})ai,t∼πθold(⋅∣xi,t)

4.3 JERP优化阶段一:模型参数更新

针对任务实例ddd,采样轨迹组{τi}i=1N\{\tau_i\}{i=1}^N{τi}i=1N,仅在轨迹终止时获取全局稀疏奖励R(τi)=r∣τi∣(i)R(\tau_i)=r^{(i)}{|\tau_i|}R(τi)=r∣τi∣(i)。

  1. 组内奖励标准化
    μd=1N∑j=1NR(τj),σd=1N∑j=1N(R(τj)−μd)2\mu_{d}=\frac{1}{N}\sum_{j=1}^{N}R\left(\tau_{j}\right),\qquad\sigma_{d}=\sqrt{\frac{1}{N}\sum_{j=1}^{N}\bigl(R\left(\tau_{j}\right)-\mu_{d}\bigr)^{2}}μd=N1j=1∑NR(τj),σd=N1j=1∑N(R(τj)−μd)2
  2. 单条轨迹相对优势(δ\deltaδ防除零)
    Ai=R(τi)−μdσd+δA_{i}=\frac{R\left(\tau_{i}\right)-\mu_{d}}{\sigma_{d}+\delta}Ai=σd+δR(τi)−μd
    同一条轨迹所有时间步共享同一优势Ai,t≡AiA_{i,t}\equiv A_iAi,t≡Ai。
  3. GRPO损失目标
    LGRPO(θ)=−1N∑i=1N1∣τi∣∑t=0∣τi∣−1ℓi,t(θ)\mathcal{L}{\mathrm{GRPO}}\left(\theta\right)=-\frac{1}{N}\sum{i=1}^{N}\frac{1}{|\tau_{i}|}\sum_{t=0}^{|\tau_{i}|-1}\ell_{i,t}\left(\theta\right)LGRPO(θ)=−N1i=1∑N∣τi∣1t=0∑∣τi∣−1ℓi,t(θ)
    单步代理损失:
    ℓi,t(θ)=min⁡ ⁣(ρi,t(θ)Ai,t,ρˉi,t(θ)Ai,t)−βDKL ⁣(πθ ⁣(⋅∣xi,t) ∥ πref ⁣(⋅∣xi,t))\ell_{i,t}\left(\theta\right)=\min\!\Bigl(\rho_{i,t}\left(\theta\right)A_{i,t},\bar{\rho}{i,t}\left(\theta\right)A{i,t}\Bigr)-\beta D_{\mathrm{KL}}\!\Bigl(\pi_{\theta}\!\left(\cdot\mid x_{i,t}\right)\,\|\,\pi_{\mathrm{ref}}\!\left(\cdot\mid x_{i,t}\right)\Bigr)ℓi,t(θ)=min(ρi,t(θ)Ai,t,ρˉi,t(θ)Ai,t)−βDKL(πθ(⋅∣xi,t)∥πref(⋅∣xi,t))
    其中:
    ρi,t(θ)=πθ ⁣(ai,t∣xi,t)πθold ⁣(ai,t∣xi,t),ρˉi,t(θ)=clip⁡ ⁣(ρi,t(θ), 1−ϵ, 1+ϵ)\rho_{i,t}\left(\theta\right)=\frac{\pi_{\theta}\!\left(a_{i,t}\mid x_{i,t}\right)}{\pi_{\theta_{\mathrm{old}}}\!\left(a_{i,t}\mid x_{i,t}\right)},\quad \bar{\rho}{i,t}\left(\theta\right)=\operatorname{clip}\!\bigl(\rho{i,t}\left(\theta\right),\,1-\epsilon,\,1+\epsilon\bigr)ρi,t(θ)=πθold(ai,t∣xi,t)πθ(ai,t∣xi,t),ρˉi,t(θ)=clip(ρi,t(θ),1−ϵ,1+ϵ)
    ϵ\epsilonϵ裁剪系数,β\betaβKL正则权重,πref\pi_{\mathrm{ref}}πref参考策略。

4.4 JERP优化阶段二:基于对比反思的经验规则更新

规则库为自然语言文本,无法直接数值优化;采用结构化编辑操作范式:冻结LLM生成标准化编辑指令,自动执行更新、合并、剪枝。

输入集合
  • 当前长期规则库K(d)\mathcal{K}(d)K(d);
  • 本轮轨迹组Td={τ1,...,τN}\mathcal{T}_{d}=\{\tau_1,...,\tau_N\}Td={τ1,...,τN};
  • 历史成功参考轨迹T+(d)={τ1+,...,τM+}\mathcal{T}^{+}(d)=\{\tau_1^{+},...,\tau_M^{+}\}T+(d)={τ1+,...,τM+};无成功轨迹时仅使用当前轨迹。
规则编辑算子生成

O(d)=ReflectAndEdit⁡(K(d),Td,T+(d))\mathcal{O}\left(d\right)=\operatorname{ReflectAndEdit}\bigl(\mathcal{K}\left(d\right),\mathcal{T}_{d},\mathcal{T}^{+}\left(d\right)\bigr)O(d)=ReflectAndEdit(K(d),Td,T+(d))

LLM输出固定格式5类基础操作:

  1. ADD(z)\text{ADD}(z)ADD(z):新增规则文本zzz,初始效用分s0>0s_0>0s0>0;
  2. EDIT(q,z)\text{EDIT}(q,z)EDIT(q,z):修改编号qqq的规则内容为zzz,保留原有分数;
  3. UPVOTE(q)\text{UPVOTE}(q)UPVOTE(q):提升规则qqq效用分+δ++\delta_{+}+δ+;
  4. DOWNVOTE(q)\text{DOWNVOTE}(q)DOWNVOTE(q):降低规则qqq效用分−δ−-\delta_{-}−δ−;
  5. MERGE(Q,z)\text{MERGE}(Q,z)MERGE(Q,z):合并集合QQQ内多条规则为新文本zzz,新规则分数取原规则最大值。
规则库更新与剪枝
  1. 执行编辑操作:K(d)←Apply⁡(K(d),O(d))\mathcal{K}\left(d\right)\leftarrow\operatorname{Apply}\bigl(\mathcal{K}\left(d\right),\mathcal{O}\left(d\right)\bigr)K(d)←Apply(K(d),O(d));
  2. 更新每条规则效用分,低于阈值直接删除;
  3. 控制规则库容量上限,持续合并冗余、低价值规则。

算法1 JERP完整训练流程

复制代码
输入:任务集合D、初始策略参数θ、工作规则集大小k、轨迹组规模N、单轮最大步数T、总训练轮数E
1. 对每个任务d∈D:
    初始化长期规则库 K(d) ← 空集
    初始化成功参考轨迹集 T⁺(d) ← 空集
2. for e = 1 to E:
    3. 采样任务实例 d ∈ D
    4. θ_old ← θ 保存旧策略
    5. 构造本轮工作规则集 K~(d) = topk(K(d), k)
    6. 初始化轨迹组 T_d ← 空集
    7. for i = 1 to N: 采样N条轨迹
        初始化τ_i为空,初始历史h_{i,0}={o_{i,0}}
        for t = 0 to T-1:
            x_{i,t} = (d, h_{i,t}, K~(d))
            基于θ_old采样动作 a_{i,t} ~ π_θold(·|x_{i,t})
            执行动作,更新交互历史 h_{i,t+1}
            τ_i 追加当前步数据
            if τ_i达到终止条件: break
        计算当前轨迹总奖励 R(τ_i)
        T_d 加入τ_i
    8. 基于T_d内所有轨迹奖励计算组相对优势
    9. 执行GRPO梯度更新 θ
    10. 调用ReflectAndEdit生成规则编辑操作集 O(d)
    11. 应用编辑操作更新长期规则库 K(d)
    12. 更新所有规则效用分,剪枝低分规则
    13. 将本轮奖励>0的成功轨迹加入 T⁺(d)
3. 循环结束,返回最终策略θ与全任务规则库{K(d)}

五、实验验证

5.1 实验环境与评价指标

采用两大主流交互式LLM智能体基准:

  1. AlfWorld:文本家居具身交互环境,6类任务:Pick、Clean、Heat、Cool、Look、Pick2;评价指标:任务成功率(%);
  2. WebShop:线上购物交互环境,完成搜索、浏览、比价、下单;评价指标:平均得分、任务成功率(%)。

5.2 对比基线方法

共5类基线,覆盖纯提示、记忆反思、强化微调全路线:

  1. Vanilla LLM:原生模型直接提示,无推理、无记忆、无参数更新;
  2. ReAct:单轮内交替推理与动作,无跨轮经验复用、无微调;
  3. Reflexion:失败轨迹生成自然语言反思存入记忆,仅测试时复用,不更新参数;
  4. RLOO:REINFORCE类离线优化,同组留一法基线估计优势;
  5. GRPO:组相对策略优化,无独立价值模型,仅参数更新、无显式规则库。

5.3 实验实现细节

硬件环境

Ubuntu 22.04 LTS服务器,双Intel Xeon Gold 6226R,512GB内存,4张NVIDIA A30 GPU。

微调方案

GRPO、JERP统一使用LoRA低秩微调,减少显存开销;所有结果取3次独立运行均值。

超参数配置表
超参数 AlfWorld WebShop
学习率 3e-6 3e-6
每组采样轨迹数N 8 8
奖励折扣γ 0.95 0.95
训练轮数E 200 300
批次大小 256 64
LoRA秩 64 64
LoRA缩放系数 64 64
单轮最大交互步数T 50 15

5.4 基线对比实验结果

整体性能数据表
方法 AlfWorld各类任务成功率(%) 总平均 WebShop
Pick Look Clean Heat Cool Pick2 平均分 成功率(%)
Vanilla LLM 5.9 5.5 3.3 9.7 4.2 0.0 4.1 23.1 5.2
ReAct 17.4 20.5 15.7 6.2 7.7 2.0 12.8 40.1 11.3
Reflexion 35.3 22.2 21.7 13.6 19.4 3.7 21.8 55.8 21.9
RLOO(+LoRA) 71.5 68.3 61.2 34.4 41.0 19.9 48.7 71.9 57.8
GRPO(+LoRA) 78.5 73.3 50.7 62.7 51.7 33.9 57.8 78.1 56.2
JERP(+LoRA) 72.2 69.8 65.4 67.4 60.1 42.5 61.5 79.0 64.1
结果分析
  1. 纯提示类(Vanilla/ReAct/Reflexion)性能远低于强化微调方案,证明仅靠上下文记忆无法解决长时序稀疏奖励任务;
  2. AlfWorld综合指标JERP 61.5%优于GRPO 57.8%,增益集中在Clean/Heat/Cool/Pick2等多步骤、约束密集任务;
  3. WebShop上JERP平均分79.0、成功率64.1%,全面超越RLOO、GRPO;
  4. 训练曲线显示:训练前期JERP与GRPO接近,中后期JERP持续提升,得益于动态更新的规则库持续沉淀中间纠错经验。

5.5 关键机制消融实验

消融变体:关闭规则库动态更新,仅在训练初始化阶段生成一次规则,全程固定不变。

  1. 消融实验曲线(AlfWorld):完整JERP全程保持更高成功率;固定规则变体前期有提升,但中后期收敛停滞;
  2. 核心结论:策略持续迭代后,固定规则库无法适配新出现的错误模式,持续动态更新规则库是JERP性能增益的核心机制

六、结论

本文提出面向LLM交互式智能体的JERP联合学习框架,同步维护长期可解释经验规则库与参数化策略。训练循环中同一批交互轨迹双向复用:

  1. 用于组相对强化学习,优化模型底层策略;
  2. 基于成功/失败轨迹对比反思,持续增删、合并、修正自然语言规则。

该机制解决传统方案规则与策略不同步、稀疏奖励局部纠错不足的痛点,在AlfWorld、WebShop多步交互任务上取得最优效果,长序列、多约束任务提升最显著。消融实验验证动态规则更新是核心增益来源。

未来工作方向

  1. 设计自适应实例级规则检索策略,替代固定Top-k筛选;
  2. 将JERP拓展至多智能体协同交互场景;
  3. 增加规则冲突自动校验、轻量化预过滤机制降低LLM推理开销。

资源附录

  1. 论文原文链接:https://arxiv.org/html/2606.27136v1
  2. 核心基线方案开源参考
  3. 实验环境基准数据集
  4. 开源协议:arXiv永久非独占许可