
论文地址:
http://xwxt.sict.ac.cn/CN/Y2024/V45/I7/1552


PS:
这个学习率有些奇怪,用数据量占一次优化的总数据量的大小作为学习率,这或许也是真的有独创性的操作了,不过这么做是否真的可行呢,或者这只是纸上谈兵呢。


PS:
这里的状态转移概率怎么和策略的动作选择概率比较像,莫非是这二者有什么等价性,或许这是什么未发现的学术点,有可能是极为有价值的地方。这里的第二个神奇地方是AC算法或者说PPO算法中不适用V函数,而是使用Q函数,甚至直接在critic部分的loss function中把Q-learning的损失函数搞进来了,只能说这种搞法不常见,虽然主流写法不这样写,但是也不能说这样就不可以,总之确实有些标新立异了。
虽然上面的对于强化学习算法PPO算法的部分的解释或许有些神奇,但是这也不是这篇文章的重点,但是使用联邦学习来优化强化学习算法确实是少见,可能这也是学术界和产业界一直使用强化学习算法来优化联邦学习算法的一个遗漏之处,这也是一个神奇的点。