大语言模型Ll M 这张图的核心信息是:随着模型规模变大,注意力(attention)层消耗的 FLOPs 占比越来越高,而 MLP 层占比反而下降。

这张图的核心信息是:随着模型规模变大,注意力(attention)层消耗的 FLOPs 占比越来越高,而 MLP 层占比反而下降。

一、FLOPs 是什么?

FLOPs(Floating Point Operations)是浮点运算次数,衡量模型计算量的单位。FLOPs 越高,训练或推理所需的计算资源越多。

二、图中数据解读(从左到右,模型从小到大)

模型大小 总 FLOPs MLP(FFN)占比 注意力(MHA)占比

760M 4.3E+15 44% 14.8%
1.3B 1.3E+16 51% 12.7%
2.7B 2.5E+16 56% 11.2%
6.7B 1.1E+17 65% 8.1%
13B 4.1E+17 69% 6.9%
30B 9.0E+17 74% 5.3%
66B 9.5E+17 77% 4.3%
175B 2.4E+18 80% 3.3%

三、关键结论(图中红字翻译)

"如果你只看小模型,会觉得 MLP 是计算瓶颈;但大模型里,attention 才是吞算力的主角。"
为什么?
• Attention 的 FLOPs 随序列长度 L 呈平方增长(O(L²))
• MLP 的 FLOPs 只随 L 线性增长(O(L))
所以:
• 小模型(短序列)时,MLP 占比高;
• 大模型(长序列)时,attention 的平方复杂度开始主导,哪怕它的占比数字看起来小,其实是因为总计算量太大,分母变大显得比例小。

四、总结一句话

优化 attention 层(比如用 FlashAttention、稀疏注意力、线性注意力)在大模型时代比优化 MLP 更划算。

相关推荐
狒狒热知识9 小时前
2026软文发稿平台哪家好?内容分层+资源联动打造新闻发稿标杆企业
大数据·人工智能·产品运营
zy_destiny9 小时前
SegEarth-OV系列(一):面向遥感图像的无训练开放词汇分割
人工智能·计算机视觉
说私域9 小时前
链动2+1模式AI智能名片小程序赋能客户端微商生态化构建研究
人工智能·小程序·流量运营·私域运营
油泼辣子多加9 小时前
【信创】华为昇腾大模型训练
人工智能·机器学习·数据挖掘
marteker9 小时前
熊猫快餐以手工制作的动画短片庆祝农历新年
人工智能
彬鸿科技9 小时前
彬鸿科技bhSDR Studio/Matlab总览讲解
人工智能·matlab·软件无线电·sdr
敢敢のwings9 小时前
NVIDIA Alpamayo 完整使用教程与介绍
人工智能
zhangfeng11339 小时前
VS Code,trae-cn qcoder cursor krio 装了 Markdown 插件却打不开预览
人工智能·python
一个王二不小9 小时前
A-Stock Trading:基于 AI 多 Agent 协同辩论的 A 股量化分析系统【不构成任何投资建议】
人工智能·trading agent