技术栈
vllm本地部署
XMoyas
5 个月前
分布式
·
docker
·
大模型部署
·
多机多卡
·
vllm本地部署
大模型推理:vllm多机多卡分布式本地部署
单台机器GPU资源不足以执行推理任务时,一个方法是模型蒸馏量化,结果就是会牺牲些效果。另一种方式是采用多台机器多个GPU进行推理,资源不足就堆机器虽然暴力但也是个不错的解决方法。值得注意的是多机多卡部署的推理框架,也适用于单机多卡,单机单卡,这里不过多赘述。