马尔可夫决策过程（MDP）

本质： 一种描述"带有选择权的随机过程"的数学模型。
五元组 (S,A,P,R,γ)(S, A, P, R, \gamma)(S,A,P,R,γ)：
- SSS (状态)：环境现在的样子（如机器人的关节角度、视觉画面）。
- AAA (动作)：智能体能做的选择（如电机力矩、移动方向）。
- PPP (转移概率)：世界运行的规律，即执行动作后环境变化的概率。
- RRR (奖励)：对动作好坏的即时评价。
- γ\gammaγ (折扣因子)：决定看重眼前利益还是长远发展。
核心特性： 马尔可夫性。即"未来只取决于现在，与过去无关"。

MDP vs. 强化学习 (RL)：
- MDP 是"剧本/地图"，规则已知，通过数学计算（贝尔曼方程）求最优解。
- RL 是"探险/试错"，规则未知，通过在环境中不断摸索来逼近 MDP 的最优解。
搜索 vs. MDP：
- 搜索（如 A*）通常处理确定性环境下的路径规划。
- MDP 处理带有随机性（概率）和多步奖励的复杂动态决策。

这份笔记总结非常到位，尤其是你最后补充的这张幻灯片，正好精准地抓住了 规划（Planning） 与 学习（Learning） 的分水岭。

以下是为你整理的完整学习笔记，包含这张图片的深度解读：

正如幻灯片所言："那不是规划，而是学习！"

关键认知： 即使底层是一个 MDP，如果你无法通过纯计算（Computation）解决它，你就必须通过**行动（Act）**来获取经验，这正是强化学习的起点。

在机器人（如灵巧手操控）领域，这几类算法扮演着不同的角色：

定位：强化学习的标准接口协议。
作用：将算法与环境（MuJoCo, Isaac Gym）解耦。
核心循环 ：
1. reset() 初始化。
2. step(action) 获得 next_state, reward, terminated。
3. 根据反馈更新策略。