技术栈

kv-cache

litble
3 小时前
人工智能·大模型·llm·moe·kv-cache·pre-ln
如何速成LLM以伪装成一个AI研究者(2)——Pre-LN,KV-Cache优化,MoE如何速成LLM以伪装成一个AI研究者(1)——循环,卷积,编解码器,注意力,Transformer免责声明:作者也是伪装的,有错漏属于正常现象,欢迎评论指正。
我是有底线的