1、强化学习中的回报与策略

亲爱的阿瞎2026-05-27 16:44

状态：

回报：

（更快的获得奖励可能比需要很长时间才能得到的奖励更具有吸引力）

折扣因子一般是比1少一点的数，如0.9，0.99，0.999等，下面为了说明目的，暂且使用0.5的折扣因子，这将极大的降低未来奖励的权重，或者说极大的折扣了未来的奖励，因为每经过一个时间戳，你只能获得比前一步少一半的奖励信用。

例子：

（你得到的奖励取决于奖励，而奖励又取决于你采取的行动，因此回报取决于你采取的行动）

例1：基于上述例子，若一直只往左走，折扣因子=0.5，则分别从不同状态起步获得的奖励计算如下：

例2：如果总往右走，那么如果从状态4开始，（下图中第一个0右上角的4表示状态4）

分别从不同状态起步获得的奖励计算如下：

在强化学习中，我们的目标是提出一个称为策略Pi的函数，其任务是接收任何状态s作为输入，并将其映射到它希望我们采取的某个动作a。

强化学习的目标是找到一个策略Pi或S的Pi，它告诉你在每个状态下应采取什么行动，以最大化回报。