技术栈
奖励
SuperHeroWu7
2 小时前
算法
·
环境
·
强化学习
·
损失函数
·
奖励
【算法】强化学习中奖励和损失函数的关系
奖励是环境的"评分",损失函数是优化器的"指导手册"。奖励告诉我们"什么好什么坏",损失函数告诉优化器"如何调整神经元的权重,让好的动作更可能发生"。
我是有底线的