分析transformer模型的参数量、计算量、中间激活、KV cache
https://zhuanlan.zhihu.com/p/624740065
该帖子是很经典的计算大模型FLOPs和显存的,值得细读
LLM训练指南(二):模型参数、计算量、显存、计算时间计算
分析transformer模型的参数量、计算量、中间激活、KV cache
https://zhuanlan.zhihu.com/p/624740065
该帖子是很经典的计算大模型FLOPs和显存的,值得细读
LLM训练指南(二):模型参数、计算量、显存、计算时间计算