技术栈
价值函数近似
nju_spy
4 小时前
人工智能
·
强化学习
·
策略迭代
·
近似动态规划
·
交叉熵方法
·
价值函数近似
·
无导数优化
强化学习 -- 无导数随机优化算法玩俄罗斯方块Tetris(交叉熵方法CE + ADP近似动态规划CBMPI)
论文:ADP 近似动态规划玩 Tetris 俄罗斯方块无导数随机优化方法是一类不依赖目标函数梯度信息,通过随机采样、迭代更新来寻找最优解的优化算法,
我是有底线的