DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY(分布式优先级体验回放)论文阅读

标题:DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY(分布式优先级体验回放)

作者:John Quan, Dan Horgan,David Budden,Gabriel Barth-Maron

单位: DeepMind

发表期刊:Machine Learning

发表时间:2018年

论文研究主题归类:深度强化学习

1.论文解决什么问题

提出了一种大规模深度强化学习的分布式架构,它使代理能够从比以前可能的数量级更多的数据中有效地学习。该算法将行动与学习脱钩:参与者通过根据共享的神经网络选择行动来与自己的环境实例交互,并在共享的经验回放记忆中积累由此产生的经验;学习者回放经验样本并更新神经网络。该体系结构依赖于优先级经验回放,只关注参与者生成的最重要的数据。该体系结构大大提高了机器学习环境的水平,在时间上获得了更好的表现。

2.是否有公开的数据集及源代码

数据集:https://github.com/blue-blue272/VideoReID-TCLNet

源代码:https://github.com/blue-blue272/VideoReID-TCLNet

3.论文的主要观点

作者认为分布式随机梯度下降被广泛用于监督学习,通过并行化更新参数的梯度来加速神经网络的训练,由此产生的参数更新可以同步、可以异步。受此启发,分布式异步参数更新和分布式数据生成应用于深度强化学习中。从数据集中非均匀采样并根据采样概率对更新进行加权以抵消由此引入的偏差,可以减少梯度的方差来提高收敛速度。experience replay在Q network上被证实非常有用。(有效解决了数据时序相关性和数据非静态分布的问题)还通过学习先前策略下的数据起到了过拟合的作用。

相关推荐
小二·2 小时前
MyBatis基础入门《十五》分布式事务实战:Seata + MyBatis 实现跨服务数据一致性
分布式·wpf·mybatis
feathered-feathered4 小时前
Redis基础知识+RDB+AOF(面试)
java·数据库·redis·分布式·后端·中间件·面试
lang201509284 小时前
深入解析Kafka Broker核心读写机制
分布式·kafka
lang201509284 小时前
Kafka高水位与日志末端偏移量解析
分布式·kafka
Tadas-Gao5 小时前
GraphQL:下一代API架构的设计哲学与实践创新
java·分布式·后端·微服务·架构·graphql
lang201509285 小时前
Kafka副本管理核心:ReplicaManager揭秘
分布式·kafka·linq
AI-Frontiers6 小时前
小白也能看懂的RLHF-PPO:原理篇
强化学习
GGBondlctrl8 小时前
【Redis】从单机架构到分布式,回溯架构的成长设计美学
分布式·缓存·架构·微服务架构·单机架构
m0_650108248 小时前
Vision-Language-Action 模型在自动驾驶中的应用(VLA4AD)
论文阅读·人工智能·自动驾驶·端到端自动驾驶·vla4ad·自动驾驶与多模态大模型交叉
编织幻境的妖8 小时前
Zookeeper在大数据集群中的作用详解
大数据·分布式·zookeeper