技术栈

pd分离

静谧之心
14 小时前
云原生·容器·golang·kubernetes·开源·pd分离
在 K8s 上可靠运行 PD 分离推理:RBG 的设计与实现Prefill-Decode(PD)分离架构通过将大模型推理拆分为两个独立阶段——Prefill(预填充) 和 Decode(解码),实现了计算与显存资源的精细化调度。该架构在性能上优势显著,但其在 Kubernetes 生产环境中的落地,对平台的编排与运维能力提出了新要求。
我是有底线的