V-trace的核心公式与计算过程

之前探索和学习了IMPALA强化学习算法。

其中，V-trace是确保IMPALA有效和稳定训练的核心。

具体为，假设想学习一位大师（目标策略π）的下棋风格，但手头只有一位业余爱好者（行为策略μ）的对局记录。不能直接照搬业余爱好者的走法，因为水平差距太大。V-trace就像一个智能过滤器，它能分析业余爱好者的棋局，从中提取出那些接近大师思路的走法，并剔除那些明显错误的，从而安全有效地学习。

这里进一步探索的V-trace的公式与计算过程。

V-trace的目标是计算出两个关键值：

1）修正后的状态价值函数，用于训练Critic网络。

2）优势函数，用于训练Actor网络，指导策略更新。

它结合了重要性采样和截断技术。

首先，计算每个时间步的重要性权重和，并对它们进行截断，以控制方差。

，用于后续的优势计算。通常设为1，是一个截断阈值，防止单个样本的权重过大，导致训练不稳定。

，用于价值函数的递推修正。通常也设为1，同样起到稳定作用。

这两个权重就像一个可信度评分。如果某步棋在业余棋手μ和大师π的评估中都非常相似，那么它的可信度权重就高；反之则低。

如果权重过高，比如比如大于或大于，会被截断阈值过滤掉。

具体计算参考上述公式。

计算每个时间步的时序差分误差

这个公式衡量了实际的奖励 + 下一时刻的价值估计与当前价值估计之间的差距。

由于乘上了截断后的重要性权重，这个误差已经经过了第一层修正。

V-trace最关键部分在于，它通过一个反向递归的公式，来计算修正后的价值目标。

从最后一步向前推演。

这个公式可以拆解为：

最终计算出的就是一个比原始更准确、更稳定的目标值。

最后，用截断后的权重 \( \rho_s \) 和刚刚算出的 \( v_{s+1} \)，来计算用于更新策略（Actor）的优势函数：

这个优势告诉，在当前状态下，采取某个动作究竟比平均水平好多少。

这里对比一下传统方法：

传统On-policy方法：

用完即弃，数据效率低，无偏差，方差小，稳定。

简单Off-policy方法：

可以重复使用旧数据，但偏差大，存在策略偏差，方差大，可能发散。

V-trace方法：

安全重用旧数据，效率高且稳定，通过截断权重严格控制偏差，通过截断权重有效控制方差，理论证明收敛到目标策略的附近

V-trace通过截断的重要性采样和递归的价值修正，为IMPALA提供了一个高速稳定的学习引擎。

它允许成千上万个Actor使用过时策略疯狂收集数据，而Learner则能从中安全、高效地提炼出知识，不断提升自己。

IMPALA强化学习算法的学习和解读

IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures