相对优势估计存在偏差——揭示群体相对强化学习中的系统性偏差问题在大型语言模型的后训练时代,强化学习从验证者奖励(RLVR)已成为提升模型推理能力的核心范式。以GRPO为代表的群体相对算法因其无需训练评判网络的简洁设计而备受青睐。然而,本文揭示了这一方法中一个被长期忽视的根本性问题:群体相对优势估计存在系统性偏差。本文不仅提供了首个理论分析,证明该估计器对困难问题会系统性低估优势、对简单问题会过度估计优势,还提出了基于历史感知的自适应难度加权(HA-DW)方案来纠正这一偏差。实验表明,该方法在多个数学推理基准上持续提升性能,为RLVR训练提供了新的理论见解和实践指导。