【NLP高频面题 - 分布式训练篇】PS架构是如何进行梯度同步和更新的?

【NLP高频面题 - 分布式训练篇】PS架构是如何进行梯度同步和更新的?

重要性:★★

参数服务器(Parameter Server,PS)架构的分布式训练系统中有两种服务器角色:训练服务器参数服务器。参数服务器需要提供充足内存资源和通信资源,训练服务器需要提供大量的计算资源。

参数服务器模式示例:

假设有一个可分为两个参数分区的模型,每个分区由一个参数服务器负责进行参数同步。在训练过程中,每个训练服务器都拥有完整的模型,并根据将分配到此服务器的训练数据集切片(Dataset Shard)进行计算,将得的梯度推送到相应的参数服务器。参数服务器会等待两个训练服务器都完成梯度推送,然后开始计算平均梯度,并更新参数。之后,参数服务器会通知训练服务器拉取最新的参数,并开始下一轮训练迭代。

参数服务器架构分布式训练过程可以细分为同步训练和异步训练两种模式:

  • 同步训练:训练服务器在完成一个小批次的训练后,将梯度推送给参数服务器。参数服务器在接收到所有训练服务器的梯度后,进行梯度聚合和参数更新。
  • 异步训练:训练服务器在完成一个小批次的训练后,将梯度推送给参数服务器。但是参数服务器不再等待接收所有训练服务器的梯度,而是直接基于已接收到的梯度进行参数更新。

NLP 大模型高频面题汇总

NLP基础篇
【NLP 面试宝典 之 模型分类】 必须要会的高频面题
【NLP 面试宝典 之 神经网络】 必须要会的高频面题
【NLP 面试宝典 之 主动学习】 必须要会的高频面题
【NLP 面试宝典 之 超参数优化】 必须要会的高频面题
【NLP 面试宝典 之 正则化】 必须要会的高频面题
【NLP 面试宝典 之 过拟合】 必须要会的高频面题
【NLP 面试宝典 之 Dropout】 必须要会的高频面题
【NLP 面试宝典 之 EarlyStopping】 必须要会的高频面题
【NLP 面试宝典 之 标签平滑】 必须要会的高频面题
【NLP 面试宝典 之 Warm up 】 必须要会的高频面题
【NLP 面试宝典 之 置信学习】 必须要会的高频面题
【NLP 面试宝典 之 伪标签】 必须要会的高频面题
【NLP 面试宝典 之 类别不均衡问题】 必须要会的高频面题
【NLP 面试宝典 之 交叉验证】 必须要会的高频面题
【NLP 面试宝典 之 词嵌入】 必须要会的高频面题
【NLP 面试宝典 之 One-Hot】 必须要会的高频面题
...
BERT 模型面
【NLP 面试宝典 之 BERT模型】 必须要会的高频面题
【NLP 面试宝典 之 BERT变体】 必须要会的高频面题
【NLP 面试宝典 之 BERT应用】 必须要会的高频面题
...
LLMs 微调面
【NLP 面试宝典 之 LoRA微调】 必须要会的高频面题
【NLP 面试宝典 之 Prompt】 必须要会的高频面题
【NLP 面试宝典 之 提示学习微调】 必须要会的高频面题
【NLP 面试宝典 之 PEFT微调】 必须要会的高频面题
【NLP 面试宝典 之 Chain-of-Thought微调】 必须要会的高频面题
...
相关推荐
AIGCmagic社区10 分钟前
AI多模态论文解读:LLaVA-CoT:让视觉语言模型逐步推理
人工智能·深度学习·语言模型
好评笔记1 小时前
多模态论文笔记——BLIP
论文阅读·人工智能·深度学习·aigc·transformer·blip·clip
confiself1 小时前
大模型系列——推理能力增强 rStar-Math 论文笔记
人工智能·深度学习
羊小猪~~3 小时前
错误修改系列---基于RNN模型的心脏病预测(pytorch实现)
人工智能·pytorch·rnn·深度学习·神经网络·机器学习·tensorflow
猫头不能躺3 小时前
【pytorch】注意力机制-1
深度学习
MUTA️4 小时前
RT-DETR代码详解(官方pytorch版)——参数配置(1)
人工智能·pytorch·笔记·深度学习·机器学习·计算机视觉
ningaiiii4 小时前
深度学习中的EMA技术:原理、实现与实验分析
人工智能·深度学习
小陈phd4 小时前
深度学习从入门到实战——卷积神经网络原理解析及其应用
人工智能·python·深度学习
熙曦Sakura5 小时前
【深度学习】数据操作入门
人工智能·深度学习