使用联邦学习法训练强化学习算法以实现对抗攻击性:读论文——小型微型计算机系统(中文CCF B)《面向深度强化学习的鲁棒性增强方法》

论文地址:

http://xwxt.sict.ac.cn/CN/Y2024/V45/I7/1552

PS:

这个学习率有些奇怪,用数据量占一次优化的总数据量的大小作为学习率,这或许也是真的有独创性的操作了,不过这么做是否真的可行呢,或者这只是纸上谈兵呢。

PS:

这里的状态转移概率怎么和策略的动作选择概率比较像,莫非是这二者有什么等价性,或许这是什么未发现的学术点,有可能是极为有价值的地方。这里的第二个神奇地方是AC算法或者说PPO算法中不适用V函数,而是使用Q函数,甚至直接在critic部分的loss function中把Q-learning的损失函数搞进来了,只能说这种搞法不常见,虽然主流写法不这样写,但是也不能说这样就不可以,总之确实有些标新立异了。

虽然上面的对于强化学习算法PPO算法的部分的解释或许有些神奇,但是这也不是这篇文章的重点,但是使用联邦学习来优化强化学习算法确实是少见,可能这也是学术界和产业界一直使用强化学习算法来优化联邦学习算法的一个遗漏之处,这也是一个神奇的点。

相关推荐
kaixin_learn_qt_ing14 天前
learn
杂谈
方而静2 个月前
来自地平星上的物理学
杂谈·物理
是大芒果2 个月前
2026开年重磅社会现实题材短漫剧重磅来袭《消失的程序员》
杂谈
是大芒果2 个月前
爆了!关于2026开年3位程序员接连猝死事件对普通人的启示录一
杂谈
是大芒果3 个月前
破防了!2026开年3位程序员接连猝死,最年轻26岁,29岁男主离世时,妻子正怀二胎7个月…
杂谈
兮山与4 个月前
杂谈8.0
杂谈
兮山与4 个月前
杂谈9.0
杂谈
兮山与6 个月前
杂谈6.0
杂谈
javachen__1 年前
Cursor:简单三步提高生成效率
杂谈
Angry_Panda1 年前
强化学习(on-policy)同步并行采样(on-line)的并行化效率分析
杂谈