图说GPT网络结构(参数量与计算量估计)

现在AI领域的主流模型几乎都是Transformer网络架构衍生而来。大热的LLM中的生成类模型很多都是来自于Transformer的变体,即decoder only架构。而GPT就是该类中的经典模型。尽管现在变体甚多,但大多没有根本性地改变其套路。

为了阐述方便,首先约定一些符号:

符号 含义
b Batch size
L Transformer layer层数
s Sequence length
n Attention head个数
h Hidden size,或embedding dim
d 每个head的hidden size,与前两者有关系 h = n d h = n d h=nd
V Vocabulary size
P 最大sequence length

在模型的优化时,我们经常需要一些信息,诸如特定配置的模型计算需要多少compute与memory资源,计算与数据传输大概需要多长时间等。这就要求我们对网络中的一些量(如参数量,计算量,内存使用量等)进行一些粗略估计。基于这些估计,还可以得到这些量之间的大致关系。如一个transformer layer的参数量约为 12 h 2 + 13 h 12 h ^ 2 + 13 h 12h2+13h,计算量约为 24 b s h 2 + 4 b h s 2 24 b s h^2 + 4 b h s^2 24bsh2+4bhs2。这意味着,在 h h h远大于 s s s的情况下,计算量与参数量大约是两倍关系。而Backward的计算量又约是Forward计算量的两倍(因需要对输入与权重都计算梯度)。由于transformer layer是网络中参数量(除embedding外)与计算量的主要贡献者。因此,计算量与除embedding外参数量之间有那个著名的公式 C ≈ 6 N C \approx 6 N C≈6N。

但是,诸如这些都是general的结论。实际使用时,我们会碰到各种网络变体,各种配置或各种跑法,另外还可能需要回答一些更细节具体的问题,比如KV Cache节省了多少计算量,需要额外占用多少memory,把某层分布式计算需要增加多少通信量,或者MQA/GQA相比传统的MHA可以节省多少memory等等。而只有了解了那些估计是怎么来的,才能够更加灵活地运用。

下面以经典的GPT2模型为例,在其网络结构上标注了各操作的shape,并进行参数量和计算量估计。

Prefill阶段:

Generation阶段:

相关推荐
谢白羽12 小时前
SimpleMem:长期记忆不是存得更多,而是让每个 token 更有信息密度
大模型·llm·agent·agent memory
searchforAI13 小时前
长视频和播客怎么变成结构化读书笔记?一套 AI 时代的知识管理方法
人工智能·笔记·gpt·音视频·语音识别
冬奇Lab13 小时前
Agent 系列(14):Agent 可观测性——追踪每一步决策,让黑盒变透明
人工智能·llm·agent
JouYY14 小时前
如何为基于 WebSocket 的 AI Agent 构建自动化测评系统
llm·agent·ai编程
webmote15 小时前
从零打造虚拟小智:用浏览器模拟 IoT 设备的实践之路
物联网·websocket·ai·大模型·llm·.net·小智
HLAIA光子15 小时前
LLM缓存机制:你的API账单可以砍掉75%
后端·llm·ai编程
dy_Alley16 小时前
从输入到决策:意图识别在 AI 架构中的定位与应用 — 第八章《知识检索 RAG-2》
llm
Nayxxu18 小时前
GPT API 迁移教程:Chat Completions 到 Responses API 的最小改造路径
数据库·gpt
AI智图坊18 小时前
电商详情页转化率提升实战:基于AI的“卖点-视觉”转化链路设计与自动化实现
大数据·运维·人工智能·gpt·ai作画·自动化·aigc
AI设计小站18 小时前
GPT Image2国内可用方案实测:创客贴AI生成+分层编辑能力解析
人工智能·gpt·php