使用联邦学习法训练强化学习算法以实现对抗攻击性:读论文——小型微型计算机系统(中文CCF B)《面向深度强化学习的鲁棒性增强方法》

论文地址:

http://xwxt.sict.ac.cn/CN/Y2024/V45/I7/1552

PS:

这个学习率有些奇怪,用数据量占一次优化的总数据量的大小作为学习率,这或许也是真的有独创性的操作了,不过这么做是否真的可行呢,或者这只是纸上谈兵呢。

PS:

这里的状态转移概率怎么和策略的动作选择概率比较像,莫非是这二者有什么等价性,或许这是什么未发现的学术点,有可能是极为有价值的地方。这里的第二个神奇地方是AC算法或者说PPO算法中不适用V函数,而是使用Q函数,甚至直接在critic部分的loss function中把Q-learning的损失函数搞进来了,只能说这种搞法不常见,虽然主流写法不这样写,但是也不能说这样就不可以,总之确实有些标新立异了。

虽然上面的对于强化学习算法PPO算法的部分的解释或许有些神奇,但是这也不是这篇文章的重点,但是使用联邦学习来优化强化学习算法确实是少见,可能这也是学术界和产业界一直使用强化学习算法来优化联邦学习算法的一个遗漏之处,这也是一个神奇的点。

相关推荐
萧文翰1 个月前
我的编程之路 2024
杂谈
Angry_Panda2 个月前
区块链技术已经衰落了吗?(区块链已die)
杂谈
Angry_Panda2 个月前
强化学习:使用自动控制方法PID来解决强化学习问题中的cartpole问题(小车平衡杆问题)
杂谈
Angry_Panda2 个月前
强化学习算法中的log_det_jacobian —— 概率分布的仿射变换(Bijector)
杂谈
Angry_Panda2 个月前
问题解决:windows主机开机不插屏幕不能自动进入桌面
杂谈
Angry_Panda3 个月前
python语言实现_通过端口转发实现跨网络(多网络之间)通信_science_network
杂谈
Angry_Panda3 个月前
强化学习算法中log_det_jacobian的影响是否需要考虑
杂谈
Angry_Panda3 个月前
人形机器人-强化学习算法-PPO算法的实现细节是否会对算法性能有大的影响.
杂谈
Angry_Panda3 个月前
nvidia公司的机器人仿真环境的历史发展介绍(Isaac-Gym、Isaac-Sim)
杂谈