技术栈

vllm本地部署

XMoyas
1 年前
分布式·docker·大模型部署·多机多卡·vllm本地部署
大模型推理:vllm多机多卡分布式本地部署单台机器GPU资源不足以执行推理任务时,一个方法是模型蒸馏量化,结果就是会牺牲些效果。另一种方式是采用多台机器多个GPU进行推理,资源不足就堆机器虽然暴力但也是个不错的解决方法。值得注意的是多机多卡部署的推理框架,也适用于单机多卡,单机单卡,这里不过多赘述。