技术栈
增强学习
uncle_ll
1 年前
人工智能
·
机器学习
·
action
·
ppo
·
增强学习
机器学习:增强式学习Reinforcement learning
如何控制你的action收集一些训练数据 但不一定是只有两种情况,不是二分类问题,可以采用不同的数字表示不同程度的期待