理解vllm分布式推理服务中的多节点Multi-Node部署方式

1. 多节点的含义

vllm官方文档(参考1)中给出了多节点"Multi-Node"多GPU部署的方案说明,注意该特性只是较新版本的vllm中才能使用。"Multi-Node"指的是,将大模型的推理和服务过程,分布在多个计算节点(服务器)上,进行推理的能力。这种分布式处理方式,能提升大模型在处理大量请求时的吞吐量、降低单个节点的负载,实现资源的有效利用。

一般来说,Multi-Node主要用于这种场景:k8s集群中,一个node的GPU资源不足以加载一个很大的模型,所以可以利用多个node的资源共同来加载模型

2. 单服务器部署多节点

vllm的参数--pipeline-parallel-size就是用来控制节点数的。如果将这个值设置为2,则最终就有2个模型同时做并发处理。官方文档(参考1)还举了个例子,如果服务器上有16个GPU,一个大模型需要8个GPU才能部署,则可以将--tensor-parallel-size参数的值设置为8,将--pipeline-parallel-size的值设置为2,这样就有2个模型同时做并发处理。

笔者有8块A800,我想部署8个Qwen2-7B模型做并发处理(一个模型只需要一块A800就能实现推理),则配置如下

复制代码
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python -m vllm.entrypoints.openai.api_server 
--model /data/models/Qwen2-7B-Instruct/ 
--served-model-name aaa 
--trust-remote-code 
--tensor-parallel-size 1 
--pipeline-parallel-size 8 
--port 8000

经笔者实测,这样确实能将8个节点部署到一台服务器上,暴露的API接口也是统一的,也能让多模型支持并发。但实测发现,这样的部署方式,并不能带来提高并发的收益。

可见,单服务器部署多节点,每个节点只负责模型的一部分计算,而多个节点之间的协同工作是比较耗时的。这种单服务器多GPU卡的情况下,不如使用Single-Node Multi-GPU (tensor parallel inference)(参考1)能带来更大的并发处理收益。

注意:在上面这种场景下,笔者实测表面,多节点部署方式带来的收益,不如单节点单GPU的效果好。本文并非要推进使用多节点的部署方式,只是对这种方式展开讨论。

3. 参考

  1. vllm分布式服务。https://docs.vllm.ai/en/latest/serving/distributed_serving.html
  2. vllm默认参数值。https://docs.vllm.ai/en/v0.4.2/models/engine_args.html
  3. Mistral-Large-Instruct-2407部署。https://blog.csdn.net//article/details/140691972
相关推荐
小钻风33663 小时前
Kafka 零基础实操命令大全
分布式·kafka
霸道流氓气质5 小时前
Redisson 看门狗机制详解:分布式锁如何自动续期防止提前过期
分布式·redisson·看门狗
霸道流氓气质13 小时前
Redisson 分布式集合详解:像用本地集合一样操作跨服务共享数据
分布式
phltxy13 小时前
RabbitMQ高级特性-消息确认与持久性博客
分布式·rabbitmq·ruby
2603_9547083114 小时前
协调控制柜在微电网中的核心地位:数据枢纽、控制核心、安全屏障
分布式·安全·架构·能源·需求分析
淡漠的蓝精灵14 小时前
Pulsar 入门:云原生分布式消息流平台
分布式·其他·云原生
ai生成式引擎优化技术16 小时前
DLOS Kernel v1.0:面向分布式AI任务执行与Agent调度的统一运行时内核
人工智能·分布式
ai生成式引擎优化技术16 小时前
DLOS v0.7:面向分布式多智能体AI操作系统的自进化内核
人工智能·分布式
未若君雅裁16 小时前
RabbitMQ 消息可靠性:生产者确认、持久化、消费者ACK与幂等消费
分布式·微服务·rabbitmq
数据库小学妹16 小时前
分布式数据库架构演进:从集中式到分布式,三大路线一次讲清楚
数据库·分布式·数据库架构