奖励 - 奖励技术,学习,经验文章

SuperHeroWu7

1 个月前

【算法】强化学习中奖励和损失函数的关系奖励是环境的"评分"，损失函数是优化器的"指导手册"。奖励告诉我们"什么好什么坏"，损失函数告诉优化器"如何调整神经元的权重，让好的动作更可能发生"。