DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY(分布式优先级体验回放)论文阅读

标题:DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY(分布式优先级体验回放)

作者:John Quan, Dan Horgan,David Budden,Gabriel Barth-Maron

单位: DeepMind

发表期刊:Machine Learning

发表时间:2018年

论文研究主题归类:深度强化学习

1.论文解决什么问题

提出了一种大规模深度强化学习的分布式架构,它使代理能够从比以前可能的数量级更多的数据中有效地学习。该算法将行动与学习脱钩:参与者通过根据共享的神经网络选择行动来与自己的环境实例交互,并在共享的经验回放记忆中积累由此产生的经验;学习者回放经验样本并更新神经网络。该体系结构依赖于优先级经验回放,只关注参与者生成的最重要的数据。该体系结构大大提高了机器学习环境的水平,在时间上获得了更好的表现。

2.是否有公开的数据集及源代码

数据集:https://github.com/blue-blue272/VideoReID-TCLNet

源代码:https://github.com/blue-blue272/VideoReID-TCLNet

3.论文的主要观点

作者认为分布式随机梯度下降被广泛用于监督学习,通过并行化更新参数的梯度来加速神经网络的训练,由此产生的参数更新可以同步、可以异步。受此启发,分布式异步参数更新和分布式数据生成应用于深度强化学习中。从数据集中非均匀采样并根据采样概率对更新进行加权以抵消由此引入的偏差,可以减少梯度的方差来提高收敛速度。experience replay在Q network上被证实非常有用。(有效解决了数据时序相关性和数据非静态分布的问题)还通过学习先前策略下的数据起到了过拟合的作用。

相关推荐
凹凸曼说我是怪兽y1 小时前
Redis分布式锁详细实现演进与Redisson深度解析
数据库·redis·分布式
人工智能培训10 小时前
10分钟了解向量数据库(3)
人工智能·大模型·知识图谱·强化学习·智能体搭建
AKAMAI10 小时前
分布式边缘推理正在改变一切
人工智能·分布式·云计算
慧一居士11 小时前
xxl-job服务搭建,以及 springboot 集成xxl-job 项目完整步骤示例
分布式·中间件
oMcLin15 小时前
如何在 Ubuntu 22.04 服务器上实现分布式数据库 Cassandra 集群,优化数据一致性与写入吞吐量
服务器·分布式·ubuntu
m0_6501082418 小时前
WorldSplat:面向自动驾驶的 4D 场景生成与新颖视图合成框架
论文阅读·自动驾驶·高保真·时空一致性·4d驾驶场景合成·生成式与重建式融合·4d高斯
小明_GLC18 小时前
Timer-XL: Long-Context Transformers For Unified Time Series Forecasting 时序论文阅读
论文阅读
马达加斯加D19 小时前
系统设计 --- 使用消息队列解决分布式事务
分布式
小明_GLC20 小时前
Improving Time Series Forecasting via Instance-aware Post-hoc Revision时序论文阅读
论文阅读
小明_GLC20 小时前
Timer : Transformers for Time Series Analysis at Scale 时序论文阅读
论文阅读