技术栈

奖励

SuperHeroWu7
2 小时前
算法·环境·强化学习·损失函数·奖励
【算法】强化学习中奖励和损失函数的关系奖励是环境的"评分",损失函数是优化器的"指导手册"。奖励告诉我们"什么好什么坏",损失函数告诉优化器"如何调整神经元的权重,让好的动作更可能发生"。
我是有底线的