【AI大模型春招面试题23】大模型的参数量、计算量如何计算？FLOPs与FLOPS的区别？

🎪 摸鱼匠：个人主页

🎒 个人专栏：《大模型岗位面试题》

🥇 没有好的理念，只有脚踏实地！

文章目录

- - 一、面试官到底想听什么？（考点解析）
  - 二、核心原理与计算公式（干货部分）
  - - [1. 参数量 (Parameters, Params)](#1. 参数量 (Parameters, Params))
    - [2. 计算量 (Compute Cost, FLOPs)](#2. 计算量 (Compute Cost, FLOPs))
    - [3. FLOPs vs FLOPS (最容易混淆的点)](#3. FLOPs vs FLOPS (最容易混淆的点))
  - 三、面试回答案例
  - 四、易错点与避坑指南 (Senior Tips)
  - 总结

你好！咱们就不整那些虚头巴脑的教科书定义了。这道题在高级算法岗面试里属于"基本功中的试金石"，面试官问这个，表面是考公式，实际是考你对**硬件瓶颈、训练成本估算以及模型缩放律（Scaling Laws）**的直觉。

既然今年是2026年，大模型参数量早就突破了万亿甚至十万亿级别，理解这些计算细节对于做分布式训练优化（如3D并行、MoE路由）更是至关重要。

下面我用"老程序员对聊"的方式，给你拆解这道题的考点、原理、标准答案和那些容易踩的坑。

一、面试官到底想听什么？（考点解析）

当面试官问"参数量、计算量怎么算？FLOPs和FLOPS啥区别？"时，他其实在考察三个层面：

基础扎实度：你是否清楚 Transformer 架构中矩阵乘法的维度变化？能不能手推一个 Layer 的计算量？
工程直觉：给你一个新模型架构，你能不能快速估算需要多少张 H100/B200，跑多久？（这是老板最关心的）。
概念清晰度：很多候选人把 FLOPs（工作量）和 FLOPS（工作效率）搞混，这在做性能分析（Profiling）时是致命的。

二、核心原理与计算公式（干货部分）

1. 参数量 (Parameters, Params)

定义：模型中所有可学习权重的总数。它决定了显存占用（Memory Footprint）。

计算逻辑 ：把所有矩阵的 M × N M \times N M×N 加起来，加上偏置（Bias，通常忽略不计或单独加）。
Transformer 标准块（Decoder-only）估算 ：
假设隐藏层维度 d m o d e l d_{model} dmodel，层数 L L L，词表大小 V V V，注意力头数 h h h。
- Embedding 层 ： V × d m o d e l V \times d_{model} V×dmodel （通常 tying weights 后，输出层也是这个，所以有的算两倍，有的算一倍，面试时要说明假设）。
- Attention 层 (每层) ：
  - Q, K, V 投影： 3 × d m o d e l × d m o d e l 3 \times d_{model} \times d_{model} 3×dmodel×dmodel
  - Output 投影： d m o d e l × d m o d e l d_{model} \times d_{model} dmodel×dmodel
  - 注：如果是多头，内部维度总和还是 d m o d e l d_{model} dmodel，所以公式不变。
  - 单层 Attention 总参数 ≈ 4 d m o d e l 2 \approx 4 d_{model}^2 ≈4dmodel2
- FFN 层 (每层) ：
  - 通常中间维度是 4 × d m o d e l 4 \times d_{model} 4×dmodel (Swish/GLU 结构可能是 8 / 3 8/3 8/3 倍，视具体变体而定，经典是 4 倍)。
  - 上行： d m o d e l × 4 d m o d e l d_{model} \times 4d_{model} dmodel×4dmodel
  - 下行： 4 d m o d e l × d m o d e l 4d_{model} \times d_{model} 4dmodel×dmodel
  - 单层 FFN 总参数 ≈ 8 d m o d e l 2 \approx 8 d_{model}^2 ≈8dmodel2
- 总参数量估算公式 ：
  P ≈ V ⋅ d m o d e l + L ⋅ ( 12 ⋅ d m o d e l 2 ) P \approx V \cdot d_{model} + L \cdot (12 \cdot d_{model}^2) P≈V⋅dmodel+L⋅(12⋅dmodel2)
  (这里取了 4+8=12 作为每层系数)

💡 资深视角 ：在 2026 年，大家更关注 MoE (Mixture of Experts) 模型。

总参数量 = Dense 部分 + (专家数量 N e x p N_{exp} Nexp × \times × 每个专家参数量)。

激活参数量 (Active Params) = Dense 部分 + (每步路由选择的专家数 k k k × \times × 每个专家参数量)。

面试加分项：主动提到"显存存的是总参数量，但计算量只跟激活参数量有关"。

2. 计算量 (Compute Cost, FLOPs)

定义：完成一次前向传播（Forward）或一次迭代（Forward + Backward）所需的浮点运算次数。注意：FLOPs 是复数，代表 Operations Count。

矩阵乘法核心规则 ：

矩阵 A ( M × K ) A (M \times K) A(M×K) 乘以 B ( K × N ) B (K \times N) B(K×N)：
- 乘法次数： M × N × K M \times N \times K M×N×K
- 加法次数： M × N × ( K − 1 ) M \times N \times (K-1) M×N×(K−1)
- 总 FLOPs ≈ 2 ⋅ M ⋅ N ⋅ K \approx 2 \cdot M \cdot N \cdot K ≈2⋅M⋅N⋅K (当 K K K 很大时，加法和乘法近似相等，合称 2 倍)。
Transformer 单次前向传播 (Per Token) 估算 ：

对于每个 Token 经过一层 Transformer：
- Attention: 2 ⋅ ( 4 d m o d e l 2 ) 2 \cdot (4 d_{model}^2) 2⋅(4dmodel2) (Q,K,V,O 四个矩阵乘)
- FFN: 2 ⋅ ( 8 d m o d e l 2 ) 2 \cdot (8 d_{model}^2) 2⋅(8dmodel2) (上下两个矩阵乘)
- 单层每 Token FLOPs ≈ 24 d m o d e l 2 \approx 24 d_{model}^2 ≈24dmodel2
- 整个模型前向传播 (序列长度 S S S) ：
  FLOPs f o r w a r d ≈ S ⋅ L ⋅ 24 ⋅ d m o d e l 2 \text{FLOPs}{forward} \approx S \cdot L \cdot 24 \cdot d{model}^2 FLOPsforward≈S⋅L⋅24⋅dmodel2
  (简化版常记为： 2 ⋅ P ⋅ S 2 \cdot P \cdot S 2⋅P⋅S，即 2 倍参数量乘以序列长度，这是一个非常实用的经验法则)
训练一次迭代 (Training Step) 的计算量 ：

训练包含：1 次前向 + 1 次反向 + (可选) 优化器更新。
- 反向传播 ：梯度计算的矩阵乘法维度与前向相同，但通常涉及转置，计算量约为前向的 2 倍。
- 优化器更新：相对较小，但在大模型中不可忽略（尤其是 AdamW 需要维护动量方差）。
- 通用经验公式 (Chinchilla 论文常用) ：
  FLOPs t r a i n _ s t e p ≈ 6 ⋅ P ⋅ S \text{FLOPs}_{train\_step} \approx 6 \cdot P \cdot S FLOPstrain_step≈6⋅P⋅S
  即：6 倍参数量 × 序列长度 。
  推导逻辑 ：前向(2P) + 反向(4P) = 6P。有些文献算上优化器会说是 8P 或更多，但 6P 是最标准的估算基准。

3. FLOPs vs FLOPS (最容易混淆的点)

特性	FLOPs (Floating Point Operations)	FLOPS (Floating Point Operations Per Second)
含义	运算总量 (工作量)	运算速度 (工作效率/吞吐量)
单位	次 (无时间单位)，如 10 24 10^{24} 1024 FLOPs	次/秒 (有时间的倒数)，如 1 PFLOPS ( 10 15 10^{15} 1015 ops/s)
类比	你要搬 1000 块砖	你每秒能搬 10 块砖
用途	估算训练总耗时、能源消耗	衡量显卡性能、集群算力上限
计算公式	由模型架构和输入数据决定	由硬件规格决定 (理论峰值 vs 实测)
关系	时间 = FLOPs FLOPS \text{时间} = \frac{\text{FLOPs}}{\text{FLOPS}} 时间=FLOPSFLOPs

⚠️ 易错点预警 ：

很多人说"这张卡有 300 Tera FLOPs"，这是错的！应该是 300 Tera FLOPS (速度)。

或者说"训练这个模型需要 100 Peta FLOPS"，这也是错的！应该是 100 Peta FLOPs (总量)。
口诀：带 "s" 的是速度 (Speed)，不带 "s" 的是次数 (Count)。

三、面试回答案例

面试官："请讲讲大模型的参数量和计算量怎么算？FLOPs 和 FLOPS 有什么区别？"

❌ 初级回答 ：

"参数量就是权重个数，比如 7B 就是有 70 亿个参数。计算量是用矩阵乘法算的，M 乘 N 乘 K。FLOPs 是运算次数，FLOPS 是每秒运算次数，差一个 S。"
(评价：没错，但太干瘪，没体现深度，也没展示工程能力。)

✅ 资深/专家级回答 (建议参考)：

"好的，这个问题咱们分两块看，一个是静态的模型规模 ，一个是动态的计算成本。

首先是参数量 (Params) ，它主要决定显存占用。对于标准的 Dense Transformer，我们通常用 12 ⋅ d m o d e l 2 ⋅ L 12 \cdot d_{model}^2 \cdot L 12⋅dmodel2⋅L 来估算主体部分，再加上词表嵌入 V ⋅ d m o d e l V \cdot d_{model} V⋅dmodel。
这里有个细节 ，如果是 2026 年主流的 MoE 架构 ，我们要区分总参数量 （决定显存需求）和激活参数量（决定计算负载）。比如一个 100B 总参数的 MoE 模型，如果每次只激活 10B，那它的推理延迟是接近 10B 模型的，但显存得按 100B 准备。

其次是计算量 (FLOPs) ，也就是'干了多少活'。

在矩阵乘法 A × B A \times B A×B 中，一次乘加操作算 2 个 FLOPs。

对于训练过程，业界有个非常实用的**'6 倍法则'**：训练一个 Token 的计算量大约是 6 × Params 6 \times \text{Params} 6×Params 。

为什么是 6 倍？因为前向传播大约消耗 2 × P 2 \times P 2×P，反向传播梯度计算大约消耗 4 × P 4 \times P 4×P（因为要算输入梯度和权重梯度）。有了这个公式，我就能快速估算：如果要训练一个 70B 模型，处理 2T Token 的数据集，总算力需求大概是 6 × 70 × 10 9 × 2 × 10 12 6 \times 70 \times 10^9 \times 2 \times 10^{12} 6×70×109×2×1012 FLOPs，再除以集群的实测算力，就能排出工期。

最后关于 FLOPs 和 FLOPS 的区别，这是性能分析里的基础，但很容易口误。

FLOPs (Operations) 是总量，没有'每秒'，它描述的是任务的复杂度。就像'我要跑 100 公里'。
FLOPS (Operations Per Second) 是速率，描述硬件的性能。就像'我的车速是 100 公里/小时'。
我们在做 Performance Modeling 时，核心公式就是 Time = Total FLOPs Achieved FLOPS \text{Time} = \frac{\text{Total FLOPs}}{\text{Achieved FLOPS}} Time=Achieved FLOPSTotal FLOPs。
这里有个坑 ：很多新人会直接把硬件的理论峰值 FLOPS （比如 H100 的 FP8 峰值）代进去算时间，这绝对会低估。实际工程中，受限于显存带宽（Memory Wall）和通信开销，我们的有效利用率 (MFU) 往往只有 40%-60%。所以在估算时，我会习惯用 理论峰值 * 0.5 来做保守估计。

总结来说，参数量看显存墙，计算量看算力墙，而分清 FLOPs 和 FLOPS 是为了准确计算训练时间和成本。"

四、易错点与避坑指南 (Senior Tips)

忘记"乘 2"：
- 错误：认为 M × K × N M \times K \times N M×K×N 就是 FLOPs。
- 正确：乘加融合（MAC），一次 MAC 包含 1 次乘法 +1 次加法，所以是 2 × M × K × N 2 \times M \times K \times N 2×M×K×N。除非题目特指 MACs。
训练量估算偏差：
- 错误：认为训练一步等于前向一步。
- 正确：训练一步 ≈ \approx ≈ 3 倍前向（前向 1 + 反向 2），或者按参数量算是 6 倍 Params。如果算上优化器状态更新，可能更高。
忽视序列长度 S S S 的影响：
- Attention 的计算量是 O ( S 2 ) O(S^2) O(S2) (原生) 或 O ( S ) O(S) O(S) (线性注意力)，但参数量与 S S S 无关。
- 在计算总 FLOPs 时，必须乘以 S S S。很多候选人只算了 P P P，忘了乘 S S S，导致估算差了几个数量级。
理论值当实值：
- 在计算预计训练时间时，直接用厂商宣传的 TFLOPS。
- 现实：由于 Memory Bandwidth 限制（特别是小批量或大模型层间通信），实际有效算力（Effective FLOPS）往往大打折扣。提到 MFU (Model FLOPs Utilization) 会让面试官觉得你很懂落地。
单位换算错误：
- K, M, G, T, P, E, Z... 别在 10 3 10^3 103 和 2 10 2^{10} 210 之间晕了。在深度学习领域，通常按 1000 1000 1000 进制（如 1 TFLOPS = 10 12 10^{12} 1012），但在显存容量上有时混用 1024 1024 1024。最好口头确认或统一用科学计数法。

总结

这道题的核心不在于背公式，而在于展示你从数学公式到工程落地的映射能力。

参数量 → \rightarrow → 显存够不够？
计算量 (FLOPs) → \rightarrow → 训练要多久？电费多少？
算力 (FLOPS) → \rightarrow → 买什么卡？集群效率如何？
6P 法则 → \rightarrow → 快速估算的神器。

希望这个解析能帮你在面试中从容应对，甚至反客为主，跟面试官聊聊最新的 MoE 计算均衡问题！