多维价值预测 - 多维价值预测技术,学习,经验文章

_pinnacle_

6 个月前

多维回报与多维价值矢量化预测的PPO算法长期以来，强化学习算法都是使用单一的标量回报（Return or Reward）与价值（Value）估计，即只使用加权求和后的reward作为评价函数（Critic function）或值估计函数（Value function）的目标真值。