技术栈
随机近似
许愿与你永世安宁
1 个月前
人工智能
·
算法
·
强化学习
·
梯度下降
·
随机近似
强化学习 (11)随机近似
有两种方法。第一种方法很直接,即收集所有样本后计算平均值;但这种方法的缺点是,若样本是在一段时间内逐个收集的,我们必须等到所有样本都收集完毕。第二种方法可避免此缺点,因为它以增量迭代的方式计算平均值,来几个就计算几个,不需要等了。