3.5 ReMax:用 Greedy 作为基线的 REINFORCE + RLOO这一节先快速回顾:**策略梯度(Policy Gradient)**的核心是用“奖励相关的权重”去放大或缩小每一步动作的梯度,从而让高奖励轨迹更可能被复现、低奖励轨迹被抑制。随后再看 PPO 如何在策略梯度的框架上加入稳定训练的约束。最后进入 ReMax:它的目标和 GRPO 类似——不想训练 Critic/Value 网络,但又希望把训练稳定性做起来,于是它回到 REINFORCE,并把 baseline 设计成“同一个 prompt 下的 greedy 输出的奖励”。