技术栈
off policy
红烧code
1 年前
强化学习
·
off policy
重要性采样
离散型随机变量 X X X,我们可以通过以下方法求取其期望:直接计算法,需要知道概率分布: E ( X ) = ∑ x ∈ X [ p ( x ) ⋅ x ] \mathbb{E}(X)=\sum_{x\in X}\left[p(x)\cdot x\right] E(X)=x∈X∑[p(x)⋅x]