强化学习原理（二）

几两春秋梦_2025-09-27 18:04

一、贝尔曼最优公式（BOE）

Motivating examples:

贝尔曼最优公式：

贝尔曼最优公式（矩阵向量形式）：

求解贝尔曼最优公式：

贝尔曼公式求解以及最优性：

**Fixed point：**f(x) = x

Contraction mapping:

Contraction mapping Theorem：

二、值迭代与策略迭代

值迭代算法：

① Policy update

② Value update

策略迭代算法：

① policy evaluation：

② policy improvement：

上一篇：兑吧集团受邀参加2025华康会·DaJK大健康“源头创新·链动未来”创新论坛

下一篇：矩形碰撞检测

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）05Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 06Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 07OpenClaw优化飞书API 额度已耗尽问题 08【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 09Window 10部署openclaw报错node.exe : npm error code 128 10OpenClaw大龙虾机器人完整安装教程