pd分离

颜笑晏晏1 天前
缓存·推理优化·sglang·ai infra·pd分离
长输入短输出场景下的 SGLang 推理性能实测前缀缓存、PD 分离配比与参数调优我们产线上的推理请求,几乎是清一色的"长输入、短输出":几万 token 的资料或上下文喂进去,模型只吐回几百 token 的答案。RAG、长文档问答、代码库分析,本质上都是这个形状。
嗷嗷哦润橘_2 个月前
人工智能·学习·pd分离
图解PD分离分布式架构及端口配置解析入口:最上方的“访问”是外部请求(如用户/客户端的HTTP/gRPC请求)。路由(router):请求首先到达 port: 8090的路由服务。它负责负载均衡,将请求分发到下游的 Prefill或 Decode服务(图中显示 Prefill 0/1、Decode 0/1两个实例组)。
enjoy编程5 个月前
注意力机制·flashattention·kv cache·pd分离·pagedattention·epd分离·radixattention
Spring AI 大模型工程核心:效率的极限博弈大模型工程实践,本质是算力、显存与通信的极限优化。其核心在于四大支柱:总结:现代大模型工程已进化为“算子+并行+调度+缓存”的综合体系,掌握这些核心技术,是构建高性能、低成本服务的关键。
静谧之心8 个月前
云原生·容器·golang·kubernetes·开源·pd分离
在 K8s 上可靠运行 PD 分离推理:RBG 的设计与实现Prefill-Decode(PD)分离架构通过将大模型推理拆分为两个独立阶段——Prefill(预填充) 和 Decode(解码),实现了计算与显存资源的精细化调度。该架构在性能上优势显著,但其在 Kubernetes 生产环境中的落地,对平台的编排与运维能力提出了新要求。
我是有底线的