强化学习小笔记 —— 如何选择合适的更新步长

在强化学习中,动作价值函数的更新可以使用增量法,如下所示:
Q k = 1 k ∑ i = 1 k r i = 1 k ( r k + ∑ i = 1 k − 1 r i ) = 1 k ( r k + ( k − 1 ) Q k − 1 ) = 1 k ( r k + k Q k − 1 − Q k − 1 ) = Q k − 1 + 1 k [ r k − Q k − 1 ] \begin{align*} Q_k &= \frac{1}{k}\sum_{i=1}^k r_i \\ &= \frac{1}{k}(r_k + \sum_{i=1}^{k-1}r_i) \\ &= \frac{1}{k}(r_k + (k-1)Q_{k-1}) \\ &= \frac{1}{k}(r_k + kQ_{k-1} - Q_{k-1}) \\ &= Q_{k-1} + \frac{1}{k}[r_k - Q_{k-1}] \end{align*} Qk=k1i=1∑kri=k1(rk+i=1∑k−1ri)=k1(rk+(k−1)Qk−1)=k1(rk+kQk−1−Qk−1)=Qk−1+k1[rk−Qk−1]

因此,根据最新观测到的奖励 r k r_k rk,使用增量计算方法根据误差 r k − Q k − 1 r_k - Q_{k-1} rk−Qk−1调整当前的估计值 Q k Q_k Qk,步长为 1 k \frac{1}{k} k1,继而获得新的估计值 Q k Q_{k} Qk。这意味着,如果最近观测到的奖励大于当前的估计值,我们会向上修改行动值的估计值。

请注意,由于存在 1 k \frac{1}{k} k1项,随着我们进行更多的观测,我们调整估计的比率将变小(公式中的 k k k随着访问次数的增加而不断增加,导致 1 k \frac{1}{k} k1越来越小)。因此,我们对最新的观测不太重视,对特定动作的动作值的估计会随着时间的推移而逐渐稳定下来。这意味着学习过程会逐渐变得保守,因为我们更加相信之前的经验。

但是,如果环境不是静止而是随时间变化的,这可能是不利的。在某些情况下,我们希望使用不会随时间减小的固定不长,例如,固定的步长 α ∈ ( 0 , 1 ) \alpha \in (0,1) α∈(0,1)。当环境随时间变化时,我们希望智能体能够适应环境的变化,而不是过分依赖过去的经验。如果我们使用固定步长,智能体将更好地适应这些变化,因为它会持续地从新的经验中学习,而不是逐渐降低学习速率。

综上,在一个平稳问题(环境)中,我们通常设置步长不断递减,这将有助于模型更快收敛。在一个随时间变化的环境中,我们通常设置固定的步长,避免模型过分依赖过去的经验。

相关推荐
asyxchenchong8888 分钟前
GEE云计算、多源遥感、高光谱遥感技术蓝碳储量估算;红树林植被指数计算及提取
经验分享
asyxchenchong88816 分钟前
生态学研究新工具:CASA模型原理解析与MODIS NDVI/FPAR遥感数据处理
经验分享
IT猿手17 分钟前
最新高性能多目标优化算法:多目标麋鹿优化算法(MOEHO)求解GLSMOP1-GLSMOP9及工程应用---盘式制动器设计,提供完整MATLAB代码
开发语言·算法·机器学习·matlab·强化学习
胡西风_foxww1 小时前
【ES6复习笔记】数值扩展(16)
前端·笔记·es6·扩展·数值
Kenneth風车1 小时前
【机器学习(九)】分类和回归任务-多层感知机(Multilayer Perceptron,MLP)算法-Sentosa_DSML社区版 (1)111
算法·机器学习·分类
18号房客1 小时前
计算机视觉-人工智能(AI)入门教程一
人工智能·深度学习·opencv·机器学习·计算机视觉·数据挖掘·语音识别
Somnus陳2 小时前
软考架构师笔记-计算机系统组成-1
笔记·系统架构
QQ_7781329742 小时前
基于深度学习的图像超分辨率重建
人工智能·机器学习·超分辨率重建
IT古董3 小时前
【漫话机器学习系列】020.正则化强度的倒数C(Inverse of regularization strength)
人工智能·机器学习
进击的小小学生3 小时前
机器学习连载
人工智能·机器学习