【NLP高频面题 - 分布式训练篇】PS架构是如何进行梯度同步和更新的?
重要性:★★
参数服务器(Parameter Server,PS)架构的分布式训练系统中有两种服务器角色:训练服务器 和参数服务器。参数服务器需要提供充足内存资源和通信资源,训练服务器需要提供大量的计算资源。
参数服务器模式示例:
假设有一个可分为两个参数分区的模型,每个分区由一个参数服务器负责进行参数同步。在训练过程中,每个训练服务器都拥有完整的模型,并根据将分配到此服务器的训练数据集切片(Dataset Shard)进行计算,将得的梯度推送到相应的参数服务器。参数服务器会等待两个训练服务器都完成梯度推送,然后开始计算平均梯度,并更新参数。之后,参数服务器会通知训练服务器拉取最新的参数,并开始下一轮训练迭代。
参数服务器架构分布式训练过程可以细分为同步训练和异步训练两种模式:
- 同步训练:训练服务器在完成一个小批次的训练后,将梯度推送给参数服务器。参数服务器在接收到所有训练服务器的梯度后,进行梯度聚合和参数更新。
- 异步训练:训练服务器在完成一个小批次的训练后,将梯度推送给参数服务器。但是参数服务器不再等待接收所有训练服务器的梯度,而是直接基于已接收到的梯度进行参数更新。