1、强化学习中的回报与策略

一、强化学习中的回报

状态:

回报:

(更快的获得奖励可能比需要很长时间才能得到的奖励更具有吸引力)





折扣因子一般是比1少一点的数,如0.9,0.99,0.999等,下面为了说明目的,暂且使用0.5的折扣因子,这将极大的降低未来奖励的权重,或者说极大的折扣了未来的奖励,因为每经过一个时间戳,你只能获得比前一步少一半的奖励信用。

例子:

(你得到的奖励取决于奖励,而奖励又取决于你采取的行动,因此回报取决于你采取的行动)

例1:基于上述例子,若一直只往左走,折扣因子=0.5,则分别从不同状态起步获得的奖励计算如下:

例2:如果总往右走,那么如果从状态4开始,(下图中第一个0右上角的4表示状态4)

分别从不同状态起步获得的奖励计算如下:

二、强化学习中的策略

在强化学习中,我们的目标是提出一个称为策略Pi的函数,其任务是接收任何状态s作为输入,并将其映射到它希望我们采取的某个动作a。

强化学习的目标是找到一个策略Pi或S的Pi,它告诉你在每个状态下应采取什么行动,以最大化回报。

相关推荐
勾股导航2 天前
REINFORCE算法
人工智能·强化学习·reinforce 算法
勾股导航2 天前
A2C算法
人工智能·强化学习·a2c
勾股导航2 天前
DQN算法
人工智能·强化学习
SP FA2 天前
深度强化学习与控制(二):无模型强化学习
人工智能·强化学习·dqn
盼小辉丶3 天前
PyTorch强化学习实战(10)——强化学习高级组件
人工智能·pytorch·python·强化学习
威化饼的一隅3 天前
【大模型LLM学习】Agentic RL—基于Qwen3-4b训练Travel Planning Agent
大模型·llm·agent·强化学习·智能体·agentic rl·旅游智能体
盼小辉丶6 天前
PyTorch强化学习实战——Atari游戏包装器
pytorch·深度学习·强化学习
viperrrrrrrrrr76 天前
强化学习入门笔记
人工智能·强化学习
阿里云大数据AI技术7 天前
开发者博客|在阿里云 PAI 平台实现规模化的机器人感知强化学习
人工智能·阿里云·机器人·强化学习·nvidia