【全面推导】策略梯度算法:公式、偏差方差与进化摘要:本文整合了强化学习(RL)策略梯度(Policy Gradient, PG)算法的推导过程,从基本PG到REINFORCE、代理目标(surrogate objective)、Actor-Critic (AC),再到PPO。重点包括每个算法的数学公式推导、转变原因,以及偏差(bias)和方差(variance)的详细分析(含推导式)。偏差指估计的系统性误差,方差指随机波动。非IID采样(轨迹序列相关性)的影响也被纳入,作为方差偏差的扩展讨论。这一进化路径体现了RL从高方差无偏差(Monte Carl