技术栈

交叉熵方法

nju_spy
4 小时前
人工智能·强化学习·策略迭代·近似动态规划·交叉熵方法·价值函数近似·无导数优化
强化学习 -- 无导数随机优化算法玩俄罗斯方块Tetris(交叉熵方法CE + ADP近似动态规划CBMPI)论文:ADP 近似动态规划玩 Tetris 俄罗斯方块无导数随机优化方法是一类不依赖目标函数梯度信息,通过随机采样、迭代更新来寻找最优解的优化算法,
我是有底线的