一、贝尔曼最优公式(BOE)
Motivating examples:



贝尔曼最优公式:

贝尔曼最优公式(矩阵向量形式):

求解贝尔曼最优公式:



贝尔曼公式求解以及最优性:
**Fixed point:**f(x) = x
Contraction mapping:

Contraction mapping Theorem:

二、值迭代与策略迭代
值迭代算法:

① Policy update

② Value update


策略迭代算法:

① policy evaluation:

② policy improvement:
