【大模型推理】PD分离场景下decoder负载均衡,如何选取decoder

https://mp.weixin.qq.com/s?__biz=Mzg4NTczNzg2OA==&mid=2247507420&idx=1&sn=4b32726abd205c7f94144bcb9105330f&chksm=ce64b9fc7f1d8de04a40b0153302dee52262c6f104c67195e2586e75c8093b8be493f252c8a3#rd

在非 Local 场景下,Prefill 定时获取 Decode 的节点状态信息并进行检测,保证健康节点的服务,提供底线容灾能力,并基于此实现了 Prefill-Decode 之间的负载均衡。目前 Prefill 选取 Decode 的负载均衡支持两种:

RR 策略,Round Robin 的方式轮询 Decode 节点。

WRR 策略,加权 RR 策略,根据 Decode 剩余可用显存分配权重,在动态变化的负载环境下维持系统的高稳定性和响应速度。

负载均衡

在逐步增大流量规模的时候,我们发现有时候 Decode 会突然出现爆显存的问题。这是因为在一个短暂的时间内,可能存在一个长请求将 Decode 显存占满的情况。Prefill 节点访问哪台 Decode 节点:我们初期采用的是 RR(Round Robin)的策略,这个策略面对突发情况无能为力。

基于这个观察,我们开发了 WRR(加权 Round Robin),Prefill 实时获取 Decode 的剩余显存,动态决定负载均衡。这个方法进一步提高了系统的鲁棒性。









相关推荐
拾光Ծ5 分钟前
【Linux】入门指南:基础指令详解Part One
linux·运维·服务器·centos
石臻臻的杂货铺22 分钟前
如何让AI实现自动化 —— PlayWright MCP 实测
运维·人工智能·自动化
红尘客栈225 分钟前
保姆级 Docker 入门到进阶
运维·docker·容器
想唱rap2 小时前
Linux指令(1)
linux·运维·服务器·笔记·新浪微博
minji...4 小时前
Linux 权限的概念及shell命令运行原理
linux·运维·服务器
戴尔华硕技术支持5 小时前
华为荣耀笔记本演示机样机解锁带原装F10智能还原功能
运维
北'辰6 小时前
使用ENSP实现HCIA-DATACOM-综合实验
运维·网络
梦想blog7 小时前
漏洞修复 CentOS x86_64 OpenSSH 升级操作文档
linux·运维·centos·ssh·漏洞修复
林开落L11 小时前
Linux 进程信号:从进阶特性到实战应用(下)
linux·运维·服务器·进程信号
初听于你12 小时前
缓存技术揭秘
java·运维·服务器·开发语言·spring·缓存