【强化学习基础概念】

State 状态

智能体的位置就是状态

State Space

状态的集合

Action

对每个状态来说,可能发出的行为

Action Space of a state

一个状态发出所有动作的集合。

State transition

状态变换的过程

Policy

在每个状态应该采取什么动作

tells the agent what actions to take at a state

确定性策略概率为1,随机粗略采集动作为概率和为1

Reward

采取一个动作后得到数字。

trajectory

一个状态行为回报链

return

return 就是所有的rewards加在一起的总和。
discount return,当前的奖励r不加γ,后面乘以γ,按照次数多少进行加倍进行乘以伽马,然后所有的求和就是discount return。也就是打了折的return.

episode

有限的trajectory。

continuing tasks

无线的trajectory,一直跟环境进行交互。

MDP

Markov decision process,马尔科夫决策过程。

Sets:

  • State
  • Action
  • Reward

Probability:

  • 状态转移概率,
    状态s,采取动作a,转移到s'的概率。
  • 回报概率
  • 状态s,采取动作a,获得回报r的概率

Policy

Markov Property

只跟上一时刻相关。

State Value

说白了就是reward的总和,带有discount的return

以上以为一个trajectory。不确定是否有限,如果有限就是episode。

按照策略π,带有discount的return总和。

相关推荐
无问芯穹10 小时前
探路智能体落地“最后一公里”:复现Cursor在线强化学习,RLinf-Online团队详解技术实现路径及背后思考
agent·强化学习·rlinf
我爱C编程12 小时前
基于分层QLearning强化学习的联合抗干扰算法matlab仿真
matlab·强化学习·分层qlearning·联合抗干扰
星马梦缘2 天前
强化学习实战5——BaseLine3使用自定义环境训练【输入状态向量】
pytorch·python·jupyter·强化学习·baseline3·gymnasium
可编程芯片开发2 天前
基于QLearning强化学习的输电线路拟声驱鸟策略算法matlab仿真
matlab·强化学习·qlearning·输电线路·驱鸟策略
让子弹飞023 天前
强化学习路径教程
强化学习
星马梦缘4 天前
rl库 AttributeError: ‘bool‘ object has no attribute ‘items‘ 的解决方案
人工智能·深度学习·机器学习·强化学习
星马梦缘6 天前
强化学习实战4——自定义环境的搭建
python·深度学习·机器学习·强化学习·q-learning·baseline3
机器学习之心7 天前
强化学习驱动的光伏功率时间序列预测:LSTM与GRU动态权重组合方法Python
python·gru·lstm·强化学习·动态权重组合方法
星马梦缘7 天前
强化学习实战3——自定义环境的搭建Q-LEARNING
强化学习·dqn·q-learning·baseline3
山顶夕景9 天前
【MLLM】GraphWalker:Deepresearch用于图像生成
大模型·强化学习·图像生成·rl·agentic