技术栈
多维价值预测
_pinnacle_
4 小时前
神经网络
·
算法
·
强化学习
·
ppo
·
多维价值预测
多维回报与多维价值矢量化预测的PPO算法
长期以来,强化学习算法都是使用单一的标量回报(Return or Reward)与价值(Value)估计,即只使用加权求和后的reward作为评价函数(Critic function)或值估计函数(Value function)的目标真值。
我是有底线的