技术栈
kv cache
enjoy编程
20 小时前
注意力机制
·
flashattention
·
kv cache
·
pd分离
·
pagedattention
·
epd分离
·
radixattention
Spring AI 大模型工程核心:效率的极限博弈
大模型工程实践,本质是算力、显存与通信的极限优化。其核心在于四大支柱:总结:现代大模型工程已进化为“算子+并行+调度+缓存”的综合体系,掌握这些核心技术,是构建高性能、低成本服务的关键。
每天都要写算法(努力版)
12 天前
llm
·
vllm
·
kv cache
【混合注意力模型的 KV Cache 设计与统一管理实践解析】
近年来,大模型结构快速演进,从传统自注意力(Standard Attention)走向更高效的混合注意力(Hybrid Attention)。例如:
爱分享的飘哥
5 个月前
llama
·
llama.cpp
·
kv cache
·
attention优化
·
llm cpu推理
·
量化attention
·
gguf推理
第四十六章:AI的“瞬时记忆”与“高效聚焦”:llama.cpp的KV Cache与Attention机制
我们已经亲身体验了LLaMA.cpp在CPU上运行大语言模型的神奇速度。一个7B参数的模型,在你的普通电脑上,也能做到几乎“秒回”,这在几年前是难以想象的。
SpikeKing
1 年前
gpt
·
attention
·
公式
·
矩阵乘法
·
kv cache
·
decoderonly
·
键值缓存
LLM - GPT(Decoder Only) 类模型的 KV Cache 公式与原理 教程
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/141605718
我是有底线的