计算量 - 计算量技术,学习,经验文章

ariesjzj

1 年前

图说GPT网络结构（参数量与计算量估计）现在AI领域的主流模型几乎都是Transformer网络架构衍生而来。大热的LLM中的生成类模型很多都是来自于Transformer的变体，即decoder only架构。而GPT就是该类中的经典模型。尽管现在变体甚多，但大多没有根本性地改变其套路。