面向大语言模型智能体的经验规则与策略联合学习方法
原文链接:https://arxiv.org/html/2606.27136v1
摘要
针对多步交互式环境下的大语言模型(LLM)智能体,如何高效复用累积交互经验是核心难题。现有方案将经验的两种使用方式完全割裂:
- 经验外置为自然语言规则,推理时作为提示词输入;优点是可解释,但会随策略迭代失效、规则过时;
- 利用交互轨迹与反馈微调模型参数;优点是全局优化策略,但稀疏奖励场景下难以针对性修正局部错误。
本文提出JERP(经验规则与策略联合学习),基于同一批交互轨迹同步更新长期经验规则库与模型策略。决策阶段,JERP检索任务相关规则,结合交互后,采集的轨迹同时用于两点优化:
- 基于组相对优势更新策略参数;
- 通过对比当前轨迹与成功参考轨迹,迭代修正规则库。
该耦合机制让规则库与策略同步演化,同时将稳定、经过验证的行为模式逐步沉淀至模型参数。在AlfWorld、WebShop两大交互式基准环境的实验证明:针对复杂多步骤交互任务,JERP能够稳定提升智能体决策性能。
一、引言
大语言模型凭借海量通用知识、上下文学习与语言推理能力,成为通用智能体的基础底座,广泛应用网页导航、具身交互、工具调用等场景。这类场景下任务无法单次输出正确答案,智能体需要持续探索、纠错、迭代策略直至完成目标,核心痛点是如何累积交互经验并指导后续决策。
现有经验复用分为两条独立技术路线,二者存在互补缺陷:
路线1:提示工程外置经验(规则/反思记忆)
将历史交互总结为自然语言反思、操作规则、操作手册,存入外部记忆库,后续任务直接拼接进提示词。
优势:规则可读、可编辑、轻量化;
缺陷:规则与模型策略解耦,模型迭代后规则会失效、误导决策;仅依赖上下文,无法从参数层面固化行为。
路线2:强化学习微调优化策略
基于交互轨迹、环境反馈、人类偏好构造损失函数,直接更新LLM参数。代表方案:PPO、GRPO、DPO、GiGPO。
优势:全局优化智能体行为;
缺陷:复杂交互任务奖励稀疏,局部关键错误无法得到及时、针对性修正,缺少可审计、可人工干预的显式经验载体。
本文核心思路
同一批交互数据同时支撑显式规则更新 与隐式策略优化,即JERP框架:
- 维护动态更新的长期经验规则库,每轮决策选取子集作为工作规则,与任务、交互历史共同构成输入;
- 单轮交互生成的轨迹组双向复用:一方面用于组相对策略梯度更新,另一方面通过对比反思更新规则库;
- 实现规则库与策略同步迭代,高频有效行为既保存在可解释规则中,也逐步固化进模型参数。
图1 三种范式对比说明
(a) 纯提示优化范式:仅维护外部规则,无模型参数更新;
(b) 纯参数优化范式:仅用轨迹微调模型,无显式可维护规则库;
© JERP联合范式:轨迹同时用于参数梯度更新 + 规则库对比式迭代。
二、相关工作
2.1 基于提示工程的经验复用
该方向核心是将交互经验外置存储,跨episode复用:
- 反思记忆类:Reflexion将失败交互生成自然语言反思存入记忆;Generative Agents、MemGPT、MemoryBank研究长时记忆存储、检索、维护机制;
- 技能/规则蒸馏类:Voyager沉淀代码技能库跨任务迁移;ExpeL、AutoGuide、AutoManual将试错经验提炼为自然语言指导规则;
- 工作流与知识库:从交互中挖掘工具使用模式、业务工作流,构建长期经验知识库、经验回放池。
现有工作共性缺陷:规则复用与模型参数学习完全分离,未解决策略迭代后规则失效的同步更新问题。
2.2 基于强化微调的LLM策略优化
该方向利用交互轨迹构造优化信号,更新模型参数:
- 基础流水线:InstructGPT提出SFT→奖励模型训练→PPO三阶段人类反馈微调;
- 轻量化组优化:GRPO同组样本估算优势,无需独立价值模型;DPO将人类反馈简化为直接偏好优化;DMPO适配多轮智能体任务;
- 长时序分层优化:GiGPO分层组策略优化,缓解稀疏奖励、细粒度信用分配难题。
该类方案缺陷:无显式可检索、可编辑的规则库,经验仅隐式存储在参数中,无法人工干预、审计。
三、问题定义与基础范式
本文建模多步部分可观测交互式任务,智能体除参数化策略外,还会检索外部经验规则拼接至提示词。本节定义规则增强交互流程,并介绍JERP依赖的两大基础范式:基于提示的经验规则学习、组相对策略优化。
3.1 部分可观测马尔可夫决策过程(POMDP)
任务实例空间D\mathcal{D}D,每个实例d∼p(d)d\sim p(d)d∼p(d);智能体与环境交互至任务终止或达到最大步数,交互建模为POMDP:
E=(S,A,O,P,Ω,R,γ,T)\mathcal{E}=\left(\mathcal{S},\mathcal{A},\mathcal{O},P,\Omega,R,\gamma,T\right)E=(S,A,O,P,Ω,R,γ,T)
各符号含义:
- S\mathcal{S}S状态空间、A\mathcal{A}A动作空间、O\mathcal{O}O观测空间;
- P(st+1∣st,at)P(s_{t+1}|s_t,a_t)P(st+1∣st,at)状态转移函数;Ω(ot+1∣st+1,at)\Omega(o_{t+1}|s_{t+1},a_t)Ω(ot+1∣st+1,at)观测函数;
- R(st,at)R(s_t,a_t)R(st,at)即时奖励;γ∈[0,1)\gamma\in[0,1)γ∈[0,1)折扣因子;TTT单轮最大交互步数。
交互历史
ttt时刻历史记录全部观测与动作:
ht=(o0,a0,o1,...,at−1,ot)h_{t}=\left(o_{0},a_{0},o_{1},\dots,a_{t-1},o_{t}\right)ht=(o0,a0,o1,...,at−1,ot)
o0o_0o0为初始任务描述。
经验规则库与输入构造
为每个任务实例维护长期规则库K(d)\mathcal{K}(d)K(d),每轮episode选取容量可控子集作为工作规则集 K~(d)\widetilde{\mathcal{K}}(d)K (d)。
ttt时刻完整输入提示:
xt=(d,ht,K~(d))x_{t}=\left(d,h_{t},\widetilde{\mathcal{K}}(d)\right)xt=(d,ht,K (d))
参数化策略采样动作:
at∼πθ(⋅∣xt)a_{t}\sim\pi_{\theta}\left(\cdot\mid x_{t}\right)at∼πθ(⋅∣xt)
执行动作后返回奖励rtr_trt、下一观测ot+1o_{t+1}ot+1、终止标记zt+1∈{0,1}z_{t+1}\in\{0,1\}zt+1∈{0,1}。
完整轨迹τ\tauτ折扣回报:
G(τ)=∑t=0T−1γtrtG(\tau)=\sum_{t=0}^{T-1}\gamma^{t}r_{t}G(τ)=t=0∑T−1γtrt
联合优化目标
训练同时优化策略参数θ\thetaθ与全量规则库K\mathcal{K}K,目标期望回报:
J(θ,K)=Ed∼p(d)Eτ∼pθ(τ∣d,K)\[G(τ)]J\left(\theta,\mathcal{K}\right)=\mathbb{E}_{d\sim p\left(d\right)}\Bigl\\mathbb{E}_{\\tau\\sim p_{\\theta}\\left(\\tau\\mid d,\\mathcal{K}\\right)}\\bigl\[G\\left(\\tau\\right)\\bigr\Bigr]J(θ,K)=Ed∼p(d)Eτ∼pθ(τ∣d,K)\[G(τ)]
θ\thetaθ改变模型对提示的解读方式,K\mathcal{K}K改变输入提示内容,二者强耦合。
3.2 基于提示的经验规则学习范式
从同类任务轨迹样本{e1,...,eN}\{e_1,...,e_N\}{e1,...,eN}调用LLM提炼可复用行为指导,存入规则库:
K=ExtractRules({ei}i=1N)\mathcal{K}=\operatorname{ExtractRules}\bigl(\{e_{i}\}_{i=1}^{N}\bigr)K=ExtractRules({ei}i=1N)
优势:规则可读、可独立修改,无需改动模型;
短板:策略迭代而规则静态,二者匹配度持续下降,因此需要将规则维护纳入训练循环。
3.3 组相对策略优化范式
给定任务实例ddd,旧策略πθold\pi_{\theta_{\mathrm{old}}}πθold采样NNN条完整轨迹,每条分配轨迹总奖励R(τi)R(\tau_i)R(τi);无需独立价值模型,通过同组内奖励对比构造优势信号:
A(τi)=GroupComputation({R(τj)}j=1N)A\left(\tau_{i}\right)=\operatorname{GroupComputation}\bigl(\{R\left(\tau_{j}\right)\}_{j=1}^{N}\bigr)A(τi)=GroupComputation({R(τj)}j=1N)
代表方案GRPO对组内奖励标准化得到相对优势,适配长时序稀疏奖励场景。
JERP创新点:同一批轨迹组同时用于策略更新 + 规则库更新。
四、经验规则与策略联合学习(JERP)
JERP在单轮训练循环内同步更新策略参数与长期经验规则库。每轮episode使用从长期库筛选的工作规则集驱动交互;生成轨迹组后分两阶段优化:阶段一组相对策略参数更新,阶段二基于对比反思更新规则库。
4.1 整体框架
每个任务实例ddd对应独立长期经验规则库:
K(d)={(zi,si)}i=1∣K(d)∣\mathcal{K}\left(d\right)=\left\{\left(z_{i},s_{i}\right)\right\}_{i=1}^{|\mathcal{K}(d)|}K(d)={(zi,si)}i=1∣K(d)∣
- ziz_izi:自然语言规则文本;
- sis_isi:规则效用分数,衡量对后续决策的参考价值。
训练完整流程:
- 每轮episode起始,按效用分降序取Top-k规则作为工作集K~(d)\widetilde{\mathcal{K}}(d)K (d);
- 输入提示拼接任务描述、交互历史、工作规则集,LLM智能体交互生成轨迹组Td\mathcal{T}_{d}Td;
- 轨迹组双向复用:
- 阶段1:基于组内轨迹回报差异,执行GRPO梯度更新策略参数θ\thetaθ;
- 阶段2:结合当前轨迹组Td\mathcal{T}_{d}Td与历史成功参考轨迹T+(d)\mathcal{T}^{+}(d)T+(d),对比反思生成规则编辑操作,更新长期规则库K(d)\mathcal{K}(d)K(d);
- 存入本轮成功轨迹至参考集T+(d)\mathcal{T}^{+}(d)T+(d),进入下一轮训练。
图2 JERP框架总览
- 检索模块:从长期规则库筛选Top-k高分规则作为本轮工作规则;
- 交互模块:任务+历史+规则构成提示输入,智能体与环境交互生成多条轨迹;
- 双分支优化:
- 参数更新分支:计算组相对优势,梯度上升更新LLM参数;
- 规则更新分支:对比成功/失败轨迹生成结构化编辑指令,增删改合并规则、调整效用分;
- 更新后的规则库迭代至下一轮交互。
4.2 轨迹采样
- 规则筛选机制:规则库按效用分降序排序,取前k条作为本轮固定工作规则集,单episode内不重新检索,避免上下文抖动;
K~(d)=topk(K(d),k)\widetilde{\mathcal{K}}\left(d\right)=\operatorname{topk}\bigl(\mathcal{K}\left(d\right),k\bigr)K (d)=topk(K(d),k)
规则总数不足k则全部使用。 - 动作生成:每一步输入xi,t=(d,hi,t,K~(d))x_{i,t}=(d,h_{i,t},\widetilde{\mathcal{K}}(d))xi,t=(d,hi,t,K (d)),基于旧策略采样动作:
ai,t∼πθold(⋅∣xi,t)a_{i,t}\sim\pi_{\theta_{\mathrm{old}}}(\cdot\mid x_{i,t})ai,t∼πθold(⋅∣xi,t)
4.3 JERP优化阶段一:模型参数更新
针对任务实例ddd,采样轨迹组{τi}i=1N\{\tau_i\}{i=1}^N{τi}i=1N,仅在轨迹终止时获取全局稀疏奖励R(τi)=r∣τi∣(i)R(\tau_i)=r^{(i)}{|\tau_i|}R(τi)=r∣τi∣(i)。
- 组内奖励标准化
μd=1N∑j=1NR(τj),σd=1N∑j=1N(R(τj)−μd)2\mu_{d}=\frac{1}{N}\sum_{j=1}^{N}R\left(\tau_{j}\right),\qquad\sigma_{d}=\sqrt{\frac{1}{N}\sum_{j=1}^{N}\bigl(R\left(\tau_{j}\right)-\mu_{d}\bigr)^{2}}μd=N1j=1∑NR(τj),σd=N1j=1∑N(R(τj)−μd)2 - 单条轨迹相对优势(δ\deltaδ防除零)
Ai=R(τi)−μdσd+δA_{i}=\frac{R\left(\tau_{i}\right)-\mu_{d}}{\sigma_{d}+\delta}Ai=σd+δR(τi)−μd
同一条轨迹所有时间步共享同一优势Ai,t≡AiA_{i,t}\equiv A_iAi,t≡Ai。 - GRPO损失目标
LGRPO(θ)=−1N∑i=1N1∣τi∣∑t=0∣τi∣−1ℓi,t(θ)\mathcal{L}{\mathrm{GRPO}}\left(\theta\right)=-\frac{1}{N}\sum{i=1}^{N}\frac{1}{|\tau_{i}|}\sum_{t=0}^{|\tau_{i}|-1}\ell_{i,t}\left(\theta\right)LGRPO(θ)=−N1i=1∑N∣τi∣1t=0∑∣τi∣−1ℓi,t(θ)
单步代理损失:
ℓi,t(θ)=min (ρi,t(θ)Ai,t,ρˉi,t(θ)Ai,t)−βDKL (πθ (⋅∣xi,t) ∥ πref (⋅∣xi,t))\ell_{i,t}\left(\theta\right)=\min\!\Bigl(\rho_{i,t}\left(\theta\right)A_{i,t},\bar{\rho}{i,t}\left(\theta\right)A{i,t}\Bigr)-\beta D_{\mathrm{KL}}\!\Bigl(\pi_{\theta}\!\left(\cdot\mid x_{i,t}\right)\,\|\,\pi_{\mathrm{ref}}\!\left(\cdot\mid x_{i,t}\right)\Bigr)ℓi,t(θ)=min(ρi,t(θ)Ai,t,ρˉi,t(θ)Ai,t)−βDKL(πθ(⋅∣xi,t)∥πref(⋅∣xi,t))
其中:
ρi,t(θ)=πθ (ai,t∣xi,t)πθold (ai,t∣xi,t),ρˉi,t(θ)=clip (ρi,t(θ), 1−ϵ, 1+ϵ)\rho_{i,t}\left(\theta\right)=\frac{\pi_{\theta}\!\left(a_{i,t}\mid x_{i,t}\right)}{\pi_{\theta_{\mathrm{old}}}\!\left(a_{i,t}\mid x_{i,t}\right)},\quad \bar{\rho}{i,t}\left(\theta\right)=\operatorname{clip}\!\bigl(\rho{i,t}\left(\theta\right),\,1-\epsilon,\,1+\epsilon\bigr)ρi,t(θ)=πθold(ai,t∣xi,t)πθ(ai,t∣xi,t),ρˉi,t(θ)=clip(ρi,t(θ),1−ϵ,1+ϵ)
ϵ\epsilonϵ裁剪系数,β\betaβKL正则权重,πref\pi_{\mathrm{ref}}πref参考策略。
4.4 JERP优化阶段二:基于对比反思的经验规则更新
规则库为自然语言文本,无法直接数值优化;采用结构化编辑操作范式:冻结LLM生成标准化编辑指令,自动执行更新、合并、剪枝。
输入集合
- 当前长期规则库K(d)\mathcal{K}(d)K(d);
- 本轮轨迹组Td={τ1,...,τN}\mathcal{T}_{d}=\{\tau_1,...,\tau_N\}Td={τ1,...,τN};
- 历史成功参考轨迹T+(d)={τ1+,...,τM+}\mathcal{T}^{+}(d)=\{\tau_1^{+},...,\tau_M^{+}\}T+(d)={τ1+,...,τM+};无成功轨迹时仅使用当前轨迹。
规则编辑算子生成
O(d)=ReflectAndEdit(K(d),Td,T+(d))\mathcal{O}\left(d\right)=\operatorname{ReflectAndEdit}\bigl(\mathcal{K}\left(d\right),\mathcal{T}_{d},\mathcal{T}^{+}\left(d\right)\bigr)O(d)=ReflectAndEdit(K(d),Td,T+(d))
LLM输出固定格式5类基础操作:
- ADD(z)\text{ADD}(z)ADD(z):新增规则文本zzz,初始效用分s0>0s_0>0s0>0;
- EDIT(q,z)\text{EDIT}(q,z)EDIT(q,z):修改编号qqq的规则内容为zzz,保留原有分数;
- UPVOTE(q)\text{UPVOTE}(q)UPVOTE(q):提升规则qqq效用分+δ++\delta_{+}+δ+;
- DOWNVOTE(q)\text{DOWNVOTE}(q)DOWNVOTE(q):降低规则qqq效用分−δ−-\delta_{-}−δ−;
- MERGE(Q,z)\text{MERGE}(Q,z)MERGE(Q,z):合并集合QQQ内多条规则为新文本zzz,新规则分数取原规则最大值。
规则库更新与剪枝
- 执行编辑操作:K(d)←Apply(K(d),O(d))\mathcal{K}\left(d\right)\leftarrow\operatorname{Apply}\bigl(\mathcal{K}\left(d\right),\mathcal{O}\left(d\right)\bigr)K(d)←Apply(K(d),O(d));
- 更新每条规则效用分,低于阈值直接删除;
- 控制规则库容量上限,持续合并冗余、低价值规则。
算法1 JERP完整训练流程
输入:任务集合D、初始策略参数θ、工作规则集大小k、轨迹组规模N、单轮最大步数T、总训练轮数E
1. 对每个任务d∈D:
初始化长期规则库 K(d) ← 空集
初始化成功参考轨迹集 T⁺(d) ← 空集
2. for e = 1 to E:
3. 采样任务实例 d ∈ D
4. θ_old ← θ 保存旧策略
5. 构造本轮工作规则集 K~(d) = topk(K(d), k)
6. 初始化轨迹组 T_d ← 空集
7. for i = 1 to N: 采样N条轨迹
初始化τ_i为空,初始历史h_{i,0}={o_{i,0}}
for t = 0 to T-1:
x_{i,t} = (d, h_{i,t}, K~(d))
基于θ_old采样动作 a_{i,t} ~ π_θold(·|x_{i,t})
执行动作,更新交互历史 h_{i,t+1}
τ_i 追加当前步数据
if τ_i达到终止条件: break
计算当前轨迹总奖励 R(τ_i)
T_d 加入τ_i
8. 基于T_d内所有轨迹奖励计算组相对优势
9. 执行GRPO梯度更新 θ
10. 调用ReflectAndEdit生成规则编辑操作集 O(d)
11. 应用编辑操作更新长期规则库 K(d)
12. 更新所有规则效用分,剪枝低分规则
13. 将本轮奖励>0的成功轨迹加入 T⁺(d)
3. 循环结束,返回最终策略θ与全任务规则库{K(d)}
五、实验验证
5.1 实验环境与评价指标
采用两大主流交互式LLM智能体基准:
- AlfWorld:文本家居具身交互环境,6类任务:Pick、Clean、Heat、Cool、Look、Pick2;评价指标:任务成功率(%);
- WebShop:线上购物交互环境,完成搜索、浏览、比价、下单;评价指标:平均得分、任务成功率(%)。
5.2 对比基线方法
共5类基线,覆盖纯提示、记忆反思、强化微调全路线:
- Vanilla LLM:原生模型直接提示,无推理、无记忆、无参数更新;
- ReAct:单轮内交替推理与动作,无跨轮经验复用、无微调;
- Reflexion:失败轨迹生成自然语言反思存入记忆,仅测试时复用,不更新参数;
- RLOO:REINFORCE类离线优化,同组留一法基线估计优势;
- GRPO:组相对策略优化,无独立价值模型,仅参数更新、无显式规则库。
5.3 实验实现细节
硬件环境
Ubuntu 22.04 LTS服务器,双Intel Xeon Gold 6226R,512GB内存,4张NVIDIA A30 GPU。
微调方案
GRPO、JERP统一使用LoRA低秩微调,减少显存开销;所有结果取3次独立运行均值。
超参数配置表
| 超参数 | AlfWorld | WebShop |
|---|---|---|
| 学习率 | 3e-6 | 3e-6 |
| 每组采样轨迹数N | 8 | 8 |
| 奖励折扣γ | 0.95 | 0.95 |
| 训练轮数E | 200 | 300 |
| 批次大小 | 256 | 64 |
| LoRA秩 | 64 | 64 |
| LoRA缩放系数 | 64 | 64 |
| 单轮最大交互步数T | 50 | 15 |
5.4 基线对比实验结果
整体性能数据表
| 方法 | AlfWorld各类任务成功率(%) | 总平均 | WebShop |
|---|---|---|---|
| Pick Look Clean Heat Cool Pick2 | 平均分 成功率(%) | ||
| Vanilla LLM | 5.9 5.5 3.3 9.7 4.2 0.0 | 4.1 | 23.1 5.2 |
| ReAct | 17.4 20.5 15.7 6.2 7.7 2.0 | 12.8 | 40.1 11.3 |
| Reflexion | 35.3 22.2 21.7 13.6 19.4 3.7 | 21.8 | 55.8 21.9 |
| RLOO(+LoRA) | 71.5 68.3 61.2 34.4 41.0 19.9 | 48.7 | 71.9 57.8 |
| GRPO(+LoRA) | 78.5 73.3 50.7 62.7 51.7 33.9 | 57.8 | 78.1 56.2 |
| JERP(+LoRA) | 72.2 69.8 65.4 67.4 60.1 42.5 | 61.5 | 79.0 64.1 |
结果分析
- 纯提示类(Vanilla/ReAct/Reflexion)性能远低于强化微调方案,证明仅靠上下文记忆无法解决长时序稀疏奖励任务;
- AlfWorld综合指标JERP 61.5%优于GRPO 57.8%,增益集中在Clean/Heat/Cool/Pick2等多步骤、约束密集任务;
- WebShop上JERP平均分79.0、成功率64.1%,全面超越RLOO、GRPO;
- 训练曲线显示:训练前期JERP与GRPO接近,中后期JERP持续提升,得益于动态更新的规则库持续沉淀中间纠错经验。
5.5 关键机制消融实验
消融变体:关闭规则库动态更新,仅在训练初始化阶段生成一次规则,全程固定不变。
- 消融实验曲线(AlfWorld):完整JERP全程保持更高成功率;固定规则变体前期有提升,但中后期收敛停滞;
- 核心结论:策略持续迭代后,固定规则库无法适配新出现的错误模式,持续动态更新规则库是JERP性能增益的核心机制。
六、结论
本文提出面向LLM交互式智能体的JERP联合学习框架,同步维护长期可解释经验规则库与参数化策略。训练循环中同一批交互轨迹双向复用:
- 用于组相对强化学习,优化模型底层策略;
- 基于成功/失败轨迹对比反思,持续增删、合并、修正自然语言规则。
该机制解决传统方案规则与策略不同步、稀疏奖励局部纠错不足的痛点,在AlfWorld、WebShop多步交互任务上取得最优效果,长序列、多约束任务提升最显著。消融实验验证动态规则更新是核心增益来源。
未来工作方向
- 设计自适应实例级规则检索策略,替代固定Top-k筛选;
- 将JERP拓展至多智能体协同交互场景;
- 增加规则冲突自动校验、轻量化预过滤机制降低LLM推理开销。
资源附录
- 论文原文链接:https://arxiv.org/html/2606.27136v1
- 核心基线方案开源参考
- 实验环境基准数据集
- AlfWorld:https://github.com/alfworld/alfworld
- WebShop:https://github.com/ysymyth/WebShop
- 开源协议:arXiv永久非独占许可