强化学习_Paper_2000_Eligibility Traces for Off-Policy Policy Evaluation

paper Link: Eligibility Traces for Off-Policy Policy Evaluation

1. 问题设定

  • 行为策略 μ ( a ∣ s ) \mu(a|s) μ(a∣s) 产生轨迹
  • 目标策略 π ( a ∣ s ) \pi(a|s) π(a∣s) 待评估
  • 在线、增量、单趟(one-pass)地估计 V π ( s ) V^\pi(s) Vπ(s) 或 Q π ( s , a ) Q^\pi(s,a) Qπ(s,a)
  • 引入 eligibility trace e t e_t et 实现 多步回报 与 低方差 的平衡

汇总算法

符号 含义
ρ t = π ( a t ∣ s t ) / μ ( a t ∣ s t ) \rho_t = \pi(a_t| s_t)/\mu(a_t | s_t) ρt=π(at∣st)/μ(at∣st) 重要性采样比
δ t I S = r t + 1 + γ V ( s t + 1 ) − V ( s t ) \delta^{IS}t = r{t+1} + \gamma V(s_{t+1}) - V(s_t) δtIS=rt+1+γV(st+1)−V(st) IS-TD 误差
δ t P D = r t + 1 + γ ρ t + 1 V ( s t + 1 ) − V ( s t ) \delta^{PD}t = r{t+1} + \gamma \rho_{t+1} V(s_{t+1}) - V(s_t) δtPD=rt+1+γρt+1V(st+1)−V(st) PD-TD 误差
δ t T B = r t + 1 + γ ∑ a π ( s t + 1 , a ) V ( s t + 1 ) − V ( s t ) \delta^{TB}t = r{t+1} + \gamma \sum_a \pi(s_{t+1}, a) V(s_{t+1}) - V(s_t) δtTB=rt+1+γ∑aπ(st+1,a)V(st+1)−V(st) TB-TD 误差
e t ∈ R d e_t \in \mathbb{R}^d et∈Rd eligibility trace 向量
λ ∈ [ 0 , 1 ] λ \in [0,1] λ∈[0,1] 迹衰减系数
算法 需要 μ 概率 迹权重 更新乘子 无偏条件 方差趋势 内存
IS-λ ρ t \rho_t ρt ρ t δ t I S e t \rho_t \delta^{IS}_te_t ρtδtISet λ=1 爆炸 O(d)
WIS-λ ρ t \rho_t ρt ( ρ t δ t I S e t ) / M t (\rho_t \delta^{IS}_t e_t)/M_t (ρtδtISet)/Mt 渐近 O(d+1)
PD-λ ρ t \rho_t ρt δ t P D e t \delta^{PD}_t e_t δtPDet λ=1 O(d)
TB-λ π t \pi_t πt δ t T B e t \delta^{TB}_t e_t δtTBet λ=1 O(d)

2. Importance-Sampling Algorithms

核心思想:把整条轨迹的回报用 重要性采样比 ρ \rho ρ 加权,再用迹向量在线累积。

2.1 基本 IS

  • 迹定义

    • e t = γ λ ρ t e t − 1 e_t = \gamma \lambda \rho_t e_{t-1} et=γλρtet−1
  • TD error 【无 ρ \rho ρ】:

    • \\delta *t = r*{t+1} + \\gamma Q_t(s_{t+1}, a_{t+1}) - Q_t(s_t, a_t) == r_{t+1} + \\gamma V_t(s_{t+1}) - V_t(s_t)
  • 更新action-value function 【有 ρ \rho ρ】:

    • Q t + 1 = Q t + α ρ t δ t e t Q_{t+1} = Q_t + \alpha \rho_t \delta_t e_t Qt+1=Qt+αρtδtet
  • 性质

    ✅ 无偏( π \pi π 下期望与 MC 一致)

    ❌ 方差随轨迹长度指数增长( ∏ ρ 0 : t → ∞ \prod \rho_{0:t} \rightarrow \infin ∏ρ0:t→∞)

2.2 加权 I S / W I S − λ IS / WIS-\lambda IS/WIS−λ

用 累积比重的倒数 做归一化因子,降低方差

  • 在线实现需维护 加权迹

    • M t = γ λ ρ t M t − 1 + 1 M_t = \gamma \lambda \rho_t M_{t-1} + 1 Mt=γλρtMt−1+1
  • 更新action-value function 【有 ρ \rho ρ】:

    • Q t + 1 = Q t + α ρ t δ t e t / M t Q_{t+1} = Q_t + \alpha \rho_t \delta_t e_t / M_t Qt+1=Qt+αρtδtet/Mt
  • 性质

    ✅ 方差 ↓,仍渐近无偏

    ❗ 需要存储额外标量 M t M_t Mt,且对非线性逼近收敛保证弱

3. Per-Decision Importance Sampling Algorithms

动机 : IS 把 整条轨迹 一起加权,方差大。
核心 : Per-decision只把 当前步 ρ ρ ρ 放进 回报,而非整条轨迹;等价于 一步 IS + 多步 TD。

3.1 PD(λ) 迹

  • 迹定义 与 IS 相同:(负责纠正历史特征的权重)

    • e t = γ λ ρ t e t − 1 , ∀ s , a e_t = \gamma \lambda \rho_t e_{t-1}, \forall s, a et=γλρtet−1,∀s,a
  • TD error: 单步重要性采样 【有 ρ \rho ρ】:(负责纠正奖励/价值)

    • δ t = r t + 1 + γ ρ t + 1 Q t ( s t + 1 , a t + 1 ) − Q t ( s t , a t ) \delta t = r{t+1} + \gamma \rho_{t+1} Q_t(s_{t+1}, a_{t+1}) - Q_t(s_t, a_t) δt=rt+1+γρt+1Qt(st+1,at+1)−Qt(st,at)
  • 更新action-value function 【无 ρ \rho ρ】:

    • Q t + 1 = Q t + α δ t e t Q_{t+1} = Q_t + \alpha \delta_t e_t Qt+1=Qt+αδtet
  • 性质

    • λ = 1 λ=1 λ=1 时无偏; λ < 1 λ<1 λ<1 引入 λ-加权偏差
    • 方差 比 IS-λ 小一个轨迹长度因子
    • 线性逼近下 收缩算子,收敛到 λ-加权 Bellman 误差 最小值
      • 与 I S − λ IS-λ IS−λ 相比,方差 ↓×轨迹长度,偏差 ↑×(1-λ)。

3.2 现代技术中不用PD的原因

「裁剪 IS」= 实现简单 + 可微 + 生态成熟,而 PD-IS 的降方差优势在现代 大 batch + clip + GPU 场景下 聊胜于无,于是被生态淘汰。

工程与算法生态 发生了三点根本变化:

  1. 方差问题靠「裁剪/正则」解决,而非「改公式」
    1. IS 的 ρ² 爆炸方差确实恐怖,但 PPO、TRPO、IMPALA 等直接用 clip(ρ, 1±ε) 或 bias-corrected ρ̂ 把权重硬压到有限区间
    2. 方差被 人工截断 控制,同时 保持可微、易实现
  2. 现代流水线需要 可微、端到端
    1. IS 形式 ρ = π θ μ θ o l d \rho = \frac{\pi_\theta}{\mu_{\theta_{old}}} ρ=μθoldπθ 是 θ 的显式函数,可以 自动微分 穿过整个轨迹
    2. PD-IS 把 ρ 拆进 δ \delta δ内部,导致 δ \delta δ 也含 θ \theta θ,反向传播时要 再求一次 δ \delta δ 对 θ \theta θ 的导数,实现复杂且 Hessian 不稳
    3. 在大 batch + GPU 场景,「整条轨迹一次乘 ρ」 比 「每步拆 δ」 更快更内存友好
  3. 算法生态「以 IS 为原子」已成型
    1. Retrace、V-trace、IMPALA、ACER、SAC(off-policy) 都把 clip-ρ 作为 基础乐高块
    2. 这些高级变体 在 IS 框架内 就能达到 Bias-Variance 最优,PD-IS 的额外降方差 边际收益低
    3. 社区工具链(RLlib、Tianshou、Acme)默认提供 clip-ρ 算子,IS 即插即用;PD-IS 需要 重写轨迹反向逻辑,无人愿意维护

4. Tree-Backup Algorithms

核心思想:不需要 权重 μ \mu μ 的概率!用 目标策略 π \pi π 的概率 直接对回报做 加权树回溯,天生 off-policy。

4.1 Tree-Backup λ (TB-λ)
  • 迹定义

    • e t = γ λ π t e t − 1 e_t = \gamma \lambda \pi_t e_{t-1} et=γλπtet−1
    • 定义 π \pi π-权重 π t = π ( a t ∣ s t ) \pi_t = \pi(a_t|s_t) πt=π(at∣st)
  • TD error: 单步重要性采样:(负责纠正奖励/价值)

    • δ t = r t + 1 + γ ∑ a π ( s t + 1 , a ) Q t ( s t + 1 , a t + 1 ) − Q t ( s t , a t ) \delta t = r{t+1} + \gamma\sum_a \pi(s_{t+1}, a) Q_t(s_{t+1}, a_{t+1}) - Q_t(s_t, a_t) δt=rt+1+γ∑aπ(st+1,a)Qt(st+1,at+1)−Qt(st,at)
  • 更新action-value function:

    • Q t + 1 = Q t + α δ t e t Q_{t+1} = Q_t + \alpha \delta_t e_t Qt+1=Qt+αδtet

一句话总结

  • IS-λ:最纯正 off-policy, ρ \rho ρ 加权整条轨迹,无偏但方差爆炸。
  • PD-λ:只把当前步 ρ \rho ρ放进回报,方差 ↓,收敛保证仍在。
  • TB-λ:甩掉 μ,用 π \pi π 概率做树回溯,无需行为策略概率,最适合 深度策略 + 高维动作 的 off-policy 学习。

5. Tree-Backup VS MCTS Backup

Tree-Backup 提出 "用 π \pi π 概率加权回溯" 来摆脱 μ;AlphaZero 的 MCTS Backup 正是这一思想在 完美信息博弈+深度网络 上的工程化实现,两者共享 π \pi π-加权、无 μ μ μ、低方差 的同一血统。

维度 Tree-Backup λ (RL) MCTS Backup (Planning)
目的 在线 off-policy 策略评估 决策时 规划最优动作
权重来源 π(a| s)(目标策略概率) 访问计数 N(s,a)(UCB 驱动的频率)
Backup 方向 时间反向(沿轨迹 t→t-1→...) 树反向(沿搜索路径 叶→根)
Backup 内容 λ-加权 TD 误差 蒙特卡洛回报神经网络估值 v_θ
是否用 μ ❌ 完全不需要行为策略 ❌ 自对弈,μ≡π
是否用 λ ✅ 显式 λ ∈ [ 0 , 1 ] \lambda \in [0,1] λ∈[0,1] 控制衰减 ❌ 隐式 λ=1(MC)或 λ=0(叶节点 bootstrap)
是否在线 ✅ 单趟轨迹即可更新 ✅ 每仿真结束后立即 Backup
数学形式 迹向量 e t = γ λ π t e t − 1 e_{t} = \gamma \lambda \pi_t e_{t-1} et=γλπtet−1 Q ( s , a ) ← ( N ⋅ Q + v ) / ( N + 1 ) Q(s,a) \leftarrow (N·Q + v)/(N+1) Q(s,a)←(N⋅Q+v)/(N+1)
方差控制 π-加权,零 IS 方差 访问频率自动降低方差

MCTS Backup 可视为「λ=1 的 MC 版 Tree-Backup」在树结构上的工程化实现:二者都用 目标策略概率( π \pi π 或访问频率) 加权回溯,彻底抛弃行为策略 μ,从而天然适合 完全自对弈 的 off-policy 场景

相关推荐
分布式存储与RustFS3 小时前
存算一体架构的先行者:RustFS在异构计算环境下的探索与实践
大数据·人工智能·物联网·云原生·对象存储·minio·rustfs
IT小哥哥呀3 小时前
论文见解:REACT:在语言模型中协同推理和行动
前端·人工智能·react.js·语言模型
来酱何人3 小时前
低资源NLP数据处理:少样本/零样本场景下数据增强与迁移学习结合方案
人工智能·深度学习·分类·nlp·bert
ChinaRainbowSea3 小时前
11. Spring AI + ELT
java·人工智能·后端·spring·ai编程
王彦臻3 小时前
YOLOv3 技术总结
深度学习·yolo·目标跟踪
玄月三初3 小时前
超算互联网平台配置老一点的mmsegmentation环境
人工智能·计算机视觉·语义分割
AI新兵3 小时前
AI大事记12:Transformer 架构——重塑 NLP 的革命性技术(下)
人工智能·架构·transformer
鸿蒙小白龙3 小时前
OpenHarmony平台大语言模型本地推理:llama深度适配与部署技术详解
人工智能·语言模型·harmonyos·鸿蒙·鸿蒙系统·llama·open harmony
jerryinwuhan4 小时前
对图片进行解释的大语言模型
人工智能·语言模型·自然语言处理