技术栈
pd分离
enjoy编程
2 天前
注意力机制
·
flashattention
·
kv cache
·
pd分离
·
pagedattention
·
epd分离
·
radixattention
Spring AI 大模型工程核心:效率的极限博弈
大模型工程实践,本质是算力、显存与通信的极限优化。其核心在于四大支柱:总结:现代大模型工程已进化为“算子+并行+调度+缓存”的综合体系,掌握这些核心技术,是构建高性能、低成本服务的关键。
静谧之心
3 个月前
云原生
·
容器
·
golang
·
kubernetes
·
开源
·
pd分离
在 K8s 上可靠运行 PD 分离推理:RBG 的设计与实现
Prefill-Decode(PD)分离架构通过将大模型推理拆分为两个独立阶段——Prefill(预填充) 和 Decode(解码),实现了计算与显存资源的精细化调度。该架构在性能上优势显著,但其在 Kubernetes 生产环境中的落地,对平台的编排与运维能力提出了新要求。
我是有底线的