技术栈
radixattention
enjoy编程
2 天前
注意力机制
·
flashattention
·
kv cache
·
pd分离
·
pagedattention
·
epd分离
·
radixattention
Spring AI 大模型工程核心:效率的极限博弈
大模型工程实践,本质是算力、显存与通信的极限优化。其核心在于四大支柱:总结:现代大模型工程已进化为“算子+并行+调度+缓存”的综合体系,掌握这些核心技术,是构建高性能、低成本服务的关键。
我是有底线的