pd分离

长输入短输出场景下的 SGLang 推理性能实测前缀缓存、PD 分离配比与参数调优我们产线上的推理请求,几乎是清一色的"长输入、短输出":几万 token 的资料或上下文喂进去,模型只吐回几百 token 的答案。RAG、长文档问答、代码库分析,本质上都是这个形状。

嗷嗷哦润橘_

图解PD分离分布式架构及端口配置解析入口：最上方的“访问”是外部请求（如用户/客户端的HTTP/gRPC请求）。路由（router）：请求首先到达 port: 8090的路由服务。它负责负载均衡，将请求分发到下游的 Prefill或 Decode服务（图中显示 Prefill 0/1、Decode 0/1两个实例组）。

Spring AI 大模型工程核心：效率的极限博弈大模型工程实践，本质是算力、显存与通信的极限优化。其核心在于四大支柱：总结：现代大模型工程已进化为“算子+并行+调度+缓存”的综合体系，掌握这些核心技术，是构建高性能、低成本服务的关键。

在 K8s 上可靠运行 PD 分离推理：RBG 的设计与实现Prefill-Decode（PD）分离架构通过将大模型推理拆分为两个独立阶段——Prefill（预填充）和 Decode（解码），实现了计算与显存资源的精细化调度。该架构在性能上优势显著，但其在 Kubernetes 生产环境中的落地，对平台的编排与运维能力提出了新要求。

我是有底线的