【强化学习基础概念】

State 状态

智能体的位置就是状态

State Space

状态的集合

Action

对每个状态来说,可能发出的行为

Action Space of a state

一个状态发出所有动作的集合。

State transition

状态变换的过程

Policy

在每个状态应该采取什么动作

tells the agent what actions to take at a state

确定性策略概率为1,随机粗略采集动作为概率和为1

Reward

采取一个动作后得到数字。

trajectory

一个状态行为回报链

return

return 就是所有的rewards加在一起的总和。
discount return,当前的奖励r不加γ,后面乘以γ,按照次数多少进行加倍进行乘以伽马,然后所有的求和就是discount return。也就是打了折的return.

episode

有限的trajectory。

continuing tasks

无线的trajectory,一直跟环境进行交互。

MDP

Markov decision process,马尔科夫决策过程。

Sets:

  • State
  • Action
  • Reward

Probability:

  • 状态转移概率,
    状态s,采取动作a,转移到s'的概率。
  • 回报概率
  • 状态s,采取动作a,获得回报r的概率

Policy

Markov Property

只跟上一时刻相关。

State Value

说白了就是reward的总和,带有discount的return

以上以为一个trajectory。不确定是否有限,如果有限就是episode。

按照策略π,带有discount的return总和。

相关推荐
不去幼儿园1 天前
【强化学习】可证明安全强化学习(Provably Safe RL)算法详细介绍
人工智能·python·算法·安全·机器学习·强化学习
weixin_377634841 天前
【开源-AgentRL】创新强化学习 多项任务超闭源模型
开源·强化学习
AI情报挖掘日志2 天前
港科大Aivilization登场,打造“AI版星露谷物语”!解锁多智能体互动新玩法!
agent·强化学习·多智能体协同·智能体·我的世界·人机协作·香港科技大学·aminer·人工智能技术突破·星露谷物语·aivilization·星露谷·具身只能·开放世界·社交智能
青云交2 天前
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用实战
java·机器学习·强化学习·模型融合·java 大数据·可控性·自然语言生成
山顶夕景6 天前
【RLVR】GRPO中奖励函数的设计逻辑
llm·强化学习·rl·奖励函数·reward
JJJJ_iii9 天前
【机器学习16】连续状态空间、深度Q网络DQN、经验回放、探索与利用
人工智能·笔记·python·机器学习·强化学习
CoovallyAIHub10 天前
当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?
深度学习·计算机视觉·强化学习
盼小辉丶11 天前
优势演员-评论家(Advantage Actor-Critic,A2C)算法详解与实现
深度学习·keras·强化学习
AI-Frontiers12 天前
收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项目 + 7个免费视频,一站式搞定
强化学习