强化学习相关

专业词汇索引

  • agent:我们把在环境中移动的物体叫agent,比如强化学习游戏中的马里奥。
  • time step:每一次状态(state后面会讲)移动按照时间步来移动
  • state:就是智能体相对于环境所处的状态(这个状态可以是很抽象的状态,最简单的就是地理位置,或者是机器人的此时的动作,想象一下你如果在用强化学习让机器人学会跳舞,那它此时的动作,就可以认为是它的状态。在金融数据中,很多特征融合到一起也能称为此时的状态)
  • action:智能体从一个状态移动到另一个状态的动作(比如,迷宫探险,一共有四个方向,上下左右,这就是在迷宫探险中的action)
  • state transition:状态转移,就是一个状态转换到另一个状态,s1->a2->s2,智能体从s1采取a2动作,到达了s2。
  • policy:就是告诉智能体移动方向的概率,也就是智能体如何移动的策略。属于条件概率,Π(a1|s1)=0,处于s1状态,采取a1方向移动的概率为0
  • reward:就是我们自己规定的智能体学习的方式,可以给一些惩罚或者是奖励。
  • Trajectories:智能体在按照一定的策略运行下去,如果有终点,则这个路径是有限的,如果没有终点,则这个路径是无限的。Trajectories就是智能体运行的路径
  • returns:智能体按照trajectories运行下去,得到的reward的总和。
  • state value:智能体按照一个给定的策略所能够得到的平均reward

State Values and Bellman Equation

returns是智能体通过一个路径下,所获得的奖励的总和,通过returns能够知道如果智能体通过这样一个trajectory下,获得的奖励总和,来衡量与其他trajectory的比较,就能够知道哪一条道路更加适合。

State Values

假如一个状态在,前往获得了立即奖励,依次下去我们用来表示所获得的路径奖励,表达式为

那么我们的State Values就可以用来表示,其计算公式可以用下列来表示

Bellman equation

state value可以写成如下的形式

我们分别来看这两个式子

第一个式子

第二个式子

所以两个化简后的式子就可以总和为

总结为

Action value

关于一个动作的价值方程,我们就叫做action value

state value的值和action value之间的关系是

相关推荐
大傻^1 天前
基于群组相对策略优化(GRPO)的大模型强化学习微调技术方案
强化学习·grpo
m0_650108241 天前
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶
Sherlock Ma2 天前
强化学习入门(2):DQN、Reinforce、AC、PPO
人工智能·深度学习·机器学习·自然语言处理·transformer·dnn·强化学习
一颗小树x2 天前
【VLA 系列】 πRL | 在线强化学习 | 流匹配 | VLA
微调·强化学习·vla·流匹配·πrl
一颗小树x3 天前
《VLA 系列》SimpleVLA-RL | 端到端 在线强化学习 | VLA
强化学习·rl·vla·simplevla-rl
蓝海星梦3 天前
GRPO 算法演进——偏差修正/鲁棒优化/架构扩展篇
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
蓝海星梦3 天前
GRPO 算法演进——裁剪机制篇
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
蓝海星梦3 天前
GRPO 算法演进:2025 年 RL4LLM 领域 40+ 项改进工作全景解析
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
蓝海星梦3 天前
GRPO 算法演进——奖励设计篇
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
悠哉悠哉愿意4 天前
【强化学习学习笔记】强化学习简介
笔记·学习·强化学习