技术栈
kv缓存
HuggingFace
5 个月前
量化
·
kv缓存
用 KV 缓存量化解锁长文本生成
很高兴和大家分享 Hugging Face 的一项新功能: KV 缓存量化 ,它能够把你的语言模型的速度提升到一个新水平。