技术栈

多维价值预测

_pinnacle_
4 小时前
神经网络·算法·强化学习·ppo·多维价值预测
多维回报与多维价值矢量化预测的PPO算法长期以来,强化学习算法都是使用单一的标量回报(Return or Reward)与价值(Value)估计,即只使用加权求和后的reward作为评价函数(Critic function)或值估计函数(Value function)的目标真值。
我是有底线的