【强化学习基础概念】

State 状态

智能体的位置就是状态

State Space

状态的集合

Action

对每个状态来说,可能发出的行为

Action Space of a state

一个状态发出所有动作的集合。

State transition

状态变换的过程

Policy

在每个状态应该采取什么动作

tells the agent what actions to take at a state

确定性策略概率为1,随机粗略采集动作为概率和为1

Reward

采取一个动作后得到数字。

trajectory

一个状态行为回报链

return

return 就是所有的rewards加在一起的总和。
discount return,当前的奖励r不加γ,后面乘以γ,按照次数多少进行加倍进行乘以伽马,然后所有的求和就是discount return。也就是打了折的return.

episode

有限的trajectory。

continuing tasks

无线的trajectory,一直跟环境进行交互。

MDP

Markov decision process,马尔科夫决策过程。

Sets:

  • State
  • Action
  • Reward

Probability:

  • 状态转移概率,
    状态s,采取动作a,转移到s'的概率。
  • 回报概率
  • 状态s,采取动作a,获得回报r的概率

Policy

Markov Property

只跟上一时刻相关。

State Value

说白了就是reward的总和,带有discount的return

以上以为一个trajectory。不确定是否有限,如果有限就是episode。

按照策略π,带有discount的return总和。

相关推荐
我爱C编程1 小时前
基于SARSA强化学习的迷宫路线规划matlab仿真
matlab·强化学习·sarsa·迷宫路线规划
小毅&Nora5 小时前
【人工智能】【强化学习】 ① 本年度大模型强化学习算法全景:6种主流算法深度解析
人工智能·强化学习
车队老哥记录生活2 天前
强化学习 RL 基础 3:随机近似方法 | 梯度下降
人工智能·算法·机器学习·强化学习
小喵要摸鱼3 天前
Q-learning 算法 —— 无模型(model-free)强化学习
强化学习·rl·q-learning
小喵要摸鱼3 天前
深度强化学习 Deep Q-learning:把深度学习引入强化学习
深度学习·强化学习
海边夕阳20063 天前
【每天一个AI小知识】:什么是自注意力?
人工智能·经验分享·机器学习·强化学习·自注意力
昨晚我输给了一辆AE863 天前
react-hook-form 初始化值为异步获取的数据的最佳实践
前端·react.js·强化学习
励志成为大佬的小杨4 天前
强化学习相关
强化学习
智算菩萨5 天前
强化学习从单代理到多代理系统的理论与算法架构综述
人工智能·算法·强化学习
倔强的石头1065 天前
多模态生成强化学习框架 DanceGRPO + FLUX 在昇腾 NPU 上的部署与对齐实践
强化学习·昇腾