强化学习·贝尔曼方程

文章目录

Return回报

Return的意义

  • Return是沿着某一路径的累积折扣奖励
  • Return的作用:可用于评估当前策略的价值





Return的计算公式

  • 注意:全是随机变量,意味着可以使用期望消去
  • R t R_t Rt与 R t + 1 R_{t+1} Rt+1都可以表示t时刻采取行动获得的即刻奖励,习惯使用后者。


State-value function状态价值函数

  • 状态价值函数:给定当前状态,其平均回报 是什么?(不知道当前动作和未来的状态和动作 )

Bellman Equation贝尔曼方程

  • 使用期望的加法性质拆分G_t

  • 使用全概率公式 分别计算两项

  • 最终形式:

贝尔曼方程的理解

  • 这是一种自举(bootstrapping)的方法自己推导自己
  • 对于所有的状态都适用,这一点很重要。
  • 简化:如果所有策略都是确定性的,那么所有的求和符合都可以消去,只有一条轨迹。

贝尔曼方程的求解

  • 特别的性质:贝尔曼方程对于所有状态都适用 ,如果我们知道策略,对于所有者状态都列举方程,可以通过求解线性方程组的形式求解贝尔曼方程

贝尔曼方程的简化方式

  • 当前状态的期望奖励和未来状态的期望奖励的总和。
  • 当前状态的期望奖励和状态转移概率可以提前计算出来
  • r π ( s ) r_{\pi}(s) rπ(s)代表状态s下的期望即刻奖励,注意没有确定动作。
  • P π P_{\pi} Pπ代表当前状态转移矩阵,维度为nxn。

数值例子


  • 通常求解线性方程组或者迭代方式可以求解

策略评估

  • 贝尔曼方程可以用于策略评估
  • 对于好策略,状态价值函数的值普遍较大,

Action-value function动作价值函数

  • 核心思想与状态价值函数一致:都是未来期望的累积折扣奖励,在此基础上给定了某个状态和采取的动作

贝尔曼方程,状态价值函数和动作价值函数的关系

  • 贝尔曼方程的右半部分等价于动作价值函数 Q π ( s , a ) Q_{\pi}(s,a) Qπ(s,a)


BOE最优贝尔曼公式

最优策略的定义

  • 这个策略得到了每一个状态价值函数 都比其他策略要高

最优贝尔曼公式的定义

  • 就是要求出最优的策略,就是 max ⁡ π \max_{\pi} maxπ

  • 向量形式:

最优贝尔曼公式的求解

最优策略

  • 简单来说,最优策略就是选择使Q-value最大时的动作
  • 原因很简单,贝尔曼方程可以简化为Q-value的加权和,我们只需要让Q-value最大的权重为1就能实现最优策略( π ( a ∣ s ) = 1 when Q ( s , a ) is maximum \pi(a|s)=1 \text{ when }Q(s,a) \text{ is maximum} π(a∣s)=1 when Q(s,a) is maximum)

求解最优贝尔曼公式

  • 简单来说满足求解以下公式的不动点
  • 通过迭代的形式求解不动点

算法原理

  • 前提:状态转移函数,奖励函数已知。
  • 初始化Q-value为0和策略为随机
  • 首先根据初始策略计算Q-value,
  • 然后根据Q-value更新策略和V-value

相关推荐
geneculture7 分钟前
从“三亲三同”到“信智序位”:数字时代社会关系范式的重构
大数据·人工智能·融智学的重要应用·哲学与科学统一性·融智时代(杂志)
人工智能AI技术10 分钟前
GTC炸场!C#集成NemoClaw企业级Agent实战教程
人工智能·c#
哈基咪怎么可能是AI16 分钟前
😱【OpenClaw 源码解析 第3期】你的 AI 助手每次都「失忆」?学会这一招,让它记住你所有重要决策,效率直接翻倍!
人工智能·后端
阿里云大数据AI技术21 分钟前
OPC时代,AI底座先行——FlagOS携Qwen3-8B镜像正式登陆阿里云
人工智能
zylyyyyyy21 分钟前
虚拟机X OpenClaw——一键“幻”养“龙虾”
大数据·人工智能·云计算
V搜xhliang024622 分钟前
面部表情识别(基于计算机视觉的文本分类等)的识别原理
人工智能·目标检测·机器学习·计算机视觉·分类·数据挖掘·知识图谱
研究点啥好呢26 分钟前
3月15日GitHub热门项目推荐 | 当AI拥有记忆
人工智能·python·github·openclaw
yhdata31 分钟前
年复合增速11.5%!智慧安全巡检机器人,锚定未来六年高成长新航向
人工智能·安全·机器人
Smoothcloud润云33 分钟前
Seedance 2.0深度解析:从“抽卡地狱”到工业化视频创作的革命
大数据·人工智能·计算机视觉·语言模型·ai作画·音视频·语音识别