强化学习-CH2 状态价值和贝尔曼等式

szm02252025-08-19 19:54

强化学习-CH2 状态值和贝尔曼等式

状态值（State Value）它被定义为agent在遵循给定策略时所能获得的平均奖励。状态值越大，对应的策略越好。状态值可以用作评估策略是否良好的度量。Bellman方程描述了所有状态值之间的关系。通过求解Bellman方程，可以得到状态值。这个过程被称为策略评估，这是强化学习中的一个基本概念。

2.1 计算回报（returns）的两种方式

针对上图的网格世界，计算回报有两种方式：

（1）按照定义：回报等于沿一条轨迹收集的所有奖励的折现总和。

vi表示从si出发所得到的回报（奖励总和）。

（2）自举：

上述等式可以写成矩阵形式：

有：

状态值就可以计算：

2.2 状态值（State Values）

从t时刻起，得到一条轨迹

St,At,Rt表示状态，动作，奖励，他们都是随机变量

这条轨迹的回报是：

Gt也是随机变量，可以计算它的期望

vπ（s）表示状态s的值，它只依赖于s（从s出发）和策略π

状态值与回报之间的关系进一步阐明如下。当策略和系统模型都是确定的时，从一个状态开始总是会导致相同的轨迹。在这种情况下，从一个状态开始获得的回报等于该状态的值。相比之下，当策略或系统模型是随机的，从相同的状态出发可能会产生不同的轨迹。在这种情况下，不同轨迹的收益是不同的，状态值是这些收益的均值。

状态值：在给定策略π下，从一个状态出发，获取到的回报的均值。

2.3 贝尔曼（Bellman）公式

等式右边的第一项表示立即回报

第二项表示未来回报的期望

因此原等式可以写成以下形式：

上式就是贝尔曼公式，它体现了所有状态值之间的关系，从贝尔曼公式计算状态的过程就称为策略评估过程。

p(r|s,a)和p(s'|s,a)代表系统模型

2.4 贝尔曼公式的向量形式

rπ（s）表示立即回报 pπ（s'|s）表示在策略π下从s转移到s'的概率

向量形式：

2.5 从贝尔曼公式中求解状态值

2.5.1 Closed-form solution

直接求解

2.5.2 迭代求解

迭代法生成一系列value，其中v0是初始猜测

2.6 从状态值到动作值

动作值（action value）在某个状态下采取一个动作的值

一个状态-动作对（s,a）的动作值定义为

状态值是对与该状态相关联的动作值的期望。

2.7 动作值的贝尔曼公式

态值是对与该状态相关联的动作值的期望。

外链图片转存中...(img-Uor3nfEM-1755503156857)

2.7 动作值的贝尔曼公式

外链图片转存中...(img-fVdXeNUK-1755503156857)

上一篇：Vision Master的C#脚本与opencv联合编程

下一篇：云原生：重塑软件世界的技术浪潮与编程语言选择

热门推荐

01GitHub 镜像站点 02安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）03Linux下V2Ray安装配置指南 04Labelme从安装到标注：零基础完整指南 05jdk21下载、安装（Windows、Linux、macOS）06【踩坑笔记】50系显卡适配的 PyTorch 安装 07手把手教你通过Gemini3 pro 学生认证，白用一年，手慢无！08Opencode CLI 安装成功,但是启动失败 09GitLab 零基础入门指南：从安装到项目管理全流程 10Claude Code Plan 模式完全指南：从入门到精通