技术栈
多机多卡
gs80140
1 个月前
分布式训练
·
deepspeed
·
多机多卡
·
深度学习优化
·
colossal-ai
分布式多机多卡训练全景指南:MPI、DeepSpeed 与 Colossal-AI 深度解析
分布式多机多卡训练技术是深度学习领域提高训练效率和加快模型收敛的重要手段。以下是几个流行的框架和工具:
XMoyas
7 个月前
分布式
·
docker
·
大模型部署
·
多机多卡
·
vllm本地部署
大模型推理:vllm多机多卡分布式本地部署
单台机器GPU资源不足以执行推理任务时,一个方法是模型蒸馏量化,结果就是会牺牲些效果。另一种方式是采用多台机器多个GPU进行推理,资源不足就堆机器虽然暴力但也是个不错的解决方法。值得注意的是多机多卡部署的推理框架,也适用于单机多卡,单机单卡,这里不过多赘述。
XMoyas
7 个月前
docker
·
大模型
·
分布式训练
·
deepspeed
·
多机多卡
deepspeed docker集群实现多机多卡训练----问题记录及解决方案资源汇总
问题1:deepspeed socketStartConnect: Connect to 172.18.0.3<54379> failed : Software caused connection abort 有效方案:【博客园-高颜值的杀生丸】deepspeed 训练多机多卡报错 ncclSystemError Last error