【强化学习基础概念】

State 状态

智能体的位置就是状态

State Space

状态的集合

Action

对每个状态来说,可能发出的行为

Action Space of a state

一个状态发出所有动作的集合。

State transition

状态变换的过程

Policy

在每个状态应该采取什么动作

tells the agent what actions to take at a state

确定性策略概率为1,随机粗略采集动作为概率和为1

Reward

采取一个动作后得到数字。

trajectory

一个状态行为回报链

return

return 就是所有的rewards加在一起的总和。
discount return,当前的奖励r不加γ,后面乘以γ,按照次数多少进行加倍进行乘以伽马,然后所有的求和就是discount return。也就是打了折的return.

episode

有限的trajectory。

continuing tasks

无线的trajectory,一直跟环境进行交互。

MDP

Markov decision process,马尔科夫决策过程。

Sets:

  • State
  • Action
  • Reward

Probability:

  • 状态转移概率,
    状态s,采取动作a,转移到s'的概率。
  • 回报概率
  • 状态s,采取动作a,获得回报r的概率

Policy

Markov Property

只跟上一时刻相关。

State Value

说白了就是reward的总和,带有discount的return

以上以为一个trajectory。不确定是否有限,如果有限就是episode。

按照策略π,带有discount的return总和。

相关推荐
Code-world-116 小时前
NVIDIA Isaac Sim 安装教程
linux·人工智能·ubuntu·强化学习·isaac sim
糖葫芦君21 小时前
TRPO-trust region policy optimization论文讲解
人工智能·算法·机器学习·强化学习
蓝海星梦21 小时前
【强化学习】深度解析 DAPO:从 GRPO 到 Decoupled Clip & Dynamic Sampling
人工智能·深度学习·自然语言处理·强化学习
deephub2 天前
多智能体强化学习(MARL)核心概念与算法概览
人工智能·机器学习·强化学习·多智能体
奔跑的花短裤2 天前
ubuntu安装Isaac sim4.5与强化学习使用
linux·ubuntu·机器人·强化学习·isaac sim·isaac lab
victory04313 天前
大模型后训练强化学习理论基础应该看李宏毅强化学习还是看斯坦福CS234
强化学习
人工智能培训4 天前
如何大幅降低大模型的训练和推理成本?
人工智能·深度学习·大模型·知识图谱·强化学习·智能体搭建·大模型工程师
清蒸鳜鱼4 天前
【系列跟学之——强化学习】基础篇
机器学习·语言模型·强化学习
WhereIsMyChair5 天前
VERL的损失函数计算方式
强化学习
蜡笔小新..6 天前
从零学习 RL :初识强化学习
人工智能·强化学习·rl