DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY(分布式优先级体验回放)论文阅读

标题:DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY(分布式优先级体验回放)

作者:John Quan, Dan Horgan,David Budden,Gabriel Barth-Maron

单位: DeepMind

发表期刊:Machine Learning

发表时间:2018年

论文研究主题归类:深度强化学习

1.论文解决什么问题

提出了一种大规模深度强化学习的分布式架构,它使代理能够从比以前可能的数量级更多的数据中有效地学习。该算法将行动与学习脱钩:参与者通过根据共享的神经网络选择行动来与自己的环境实例交互,并在共享的经验回放记忆中积累由此产生的经验;学习者回放经验样本并更新神经网络。该体系结构依赖于优先级经验回放,只关注参与者生成的最重要的数据。该体系结构大大提高了机器学习环境的水平,在时间上获得了更好的表现。

2.是否有公开的数据集及源代码

数据集:https://github.com/blue-blue272/VideoReID-TCLNet

源代码:https://github.com/blue-blue272/VideoReID-TCLNet

3.论文的主要观点

作者认为分布式随机梯度下降被广泛用于监督学习,通过并行化更新参数的梯度来加速神经网络的训练,由此产生的参数更新可以同步、可以异步。受此启发,分布式异步参数更新和分布式数据生成应用于深度强化学习中。从数据集中非均匀采样并根据采样概率对更新进行加权以抵消由此引入的偏差,可以减少梯度的方差来提高收敛速度。experience replay在Q network上被证实非常有用。(有效解决了数据时序相关性和数据非静态分布的问题)还通过学习先前策略下的数据起到了过拟合的作用。

相关推荐
数智工坊3 分钟前
【VAE 论文阅读| ICLR 2014】:变分自编码器——深度生成模型的理论基石
论文阅读·人工智能·深度学习
盼小辉丶36 分钟前
PyTorch强化学习实战(6)——交叉熵方法详解与实现
人工智能·pytorch·python·强化学习
渔民小镇1 小时前
4 行代码接入 Spring —— ionet 的生态融合之道
java·服务器·分布式·游戏
苍煜2 小时前
Kafka vs RocketMQ 生产环境选型指南
分布式·kafka·rocketmq
m0_716255003 小时前
第二部分 电商离线数仓 全套项目代码(可直接在你伪分布式 Hive 运行)
hive·hadoop·分布式
旷世奇才李先生3 小时前
Spring Cloud Alibaba 2026微服务全栈实战:服务治理\+流量控制\+分布式事务
分布式·微服务·架构
Amy187021118233 小时前
虚拟电厂为什么必须“牵手”微电网?答案全在这里
分布式·安全·能源
旷世奇才李先生5 小时前
Redis 7\.0实战:分布式缓存与高可用集群搭建全指南
redis·分布式·缓存
盼小辉丶5 小时前
PyTorch强化学习实战(5)——PyTorch Ignite 事件驱动机制与实践
人工智能·pytorch·python·强化学习
数智工坊1 天前
【ECNDNet论文阅读|图像去噪经典】:融合残差、BN与空洞卷积的增强型去噪网络
网络·论文阅读