技术栈
多机多卡
XMoyas
4 个月前
分布式
·
docker
·
大模型部署
·
多机多卡
·
vllm本地部署
大模型推理:vllm多机多卡分布式本地部署
单台机器GPU资源不足以执行推理任务时,一个方法是模型蒸馏量化,结果就是会牺牲些效果。另一种方式是采用多台机器多个GPU进行推理,资源不足就堆机器虽然暴力但也是个不错的解决方法。值得注意的是多机多卡部署的推理框架,也适用于单机多卡,单机单卡,这里不过多赘述。
XMoyas
4 个月前
docker
·
大模型
·
分布式训练
·
deepspeed
·
多机多卡
deepspeed docker集群实现多机多卡训练----问题记录及解决方案资源汇总
问题1:deepspeed socketStartConnect: Connect to 172.18.0.3<54379> failed : Software caused connection abort 有效方案:【博客园-高颜值的杀生丸】deepspeed 训练多机多卡报错 ncclSystemError Last error