策略迭代 - 策略迭代技术,学习,经验文章

nju_spy

7 个月前

强化学习 -- 无导数随机优化算法玩俄罗斯方块Tetris（交叉熵方法CE + ADP近似动态规划CBMPI）论文：ADP 近似动态规划玩 Tetris 俄罗斯方块无导数随机优化方法是一类不依赖目标函数梯度信息，通过随机采样、迭代更新来寻找最优解的优化算法，