技术栈
策略迭代
nju_spy
11 天前
人工智能
·
强化学习
·
策略迭代
·
近似动态规划
·
交叉熵方法
·
价值函数近似
·
无导数优化
强化学习 -- 无导数随机优化算法玩俄罗斯方块Tetris(交叉熵方法CE + ADP近似动态规划CBMPI)
论文:ADP 近似动态规划玩 Tetris 俄罗斯方块无导数随机优化方法是一类不依赖目标函数梯度信息,通过随机采样、迭代更新来寻找最优解的优化算法,
2401_84149564
3 个月前
人工智能
·
python
·
算法
·
动态规划
·
强化学习
·
策略迭代
·
价值迭代
【强化学习】动态规划算法
目录一、引言二、悬崖漫步环境三、策略迭代算法(一)策略评估(二)策略提升(三)策略迭代算法四、价值迭代算法
我是有底线的