大语言模型Ll M 这张图的核心信息是:随着模型规模变大,注意力(attention)层消耗的 FLOPs 占比越来越高,而 MLP 层占比反而下降。

这张图的核心信息是:随着模型规模变大,注意力(attention)层消耗的 FLOPs 占比越来越高,而 MLP 层占比反而下降。

一、FLOPs 是什么?

FLOPs(Floating Point Operations)是浮点运算次数,衡量模型计算量的单位。FLOPs 越高,训练或推理所需的计算资源越多。

二、图中数据解读(从左到右,模型从小到大)

模型大小 总 FLOPs MLP(FFN)占比 注意力(MHA)占比

760M 4.3E+15 44% 14.8%
1.3B 1.3E+16 51% 12.7%
2.7B 2.5E+16 56% 11.2%
6.7B 1.1E+17 65% 8.1%
13B 4.1E+17 69% 6.9%
30B 9.0E+17 74% 5.3%
66B 9.5E+17 77% 4.3%
175B 2.4E+18 80% 3.3%

三、关键结论(图中红字翻译)

"如果你只看小模型,会觉得 MLP 是计算瓶颈;但大模型里,attention 才是吞算力的主角。"
为什么?
• Attention 的 FLOPs 随序列长度 L 呈平方增长(O(L²))
• MLP 的 FLOPs 只随 L 线性增长(O(L))
所以:
• 小模型(短序列)时,MLP 占比高;
• 大模型(长序列)时,attention 的平方复杂度开始主导,哪怕它的占比数字看起来小,其实是因为总计算量太大,分母变大显得比例小。

四、总结一句话

优化 attention 层(比如用 FlashAttention、稀疏注意力、线性注意力)在大模型时代比优化 MLP 更划算。

相关推荐
Hcoco_me1 分钟前
大模型面试题26:Adam优化器小白版速懂
人工智能·rnn·自然语言处理·lstm·word2vec
kevin_kang1 分钟前
25-客服工单系统实战(二):RAG检索与智能问答
人工智能
njsgcs2 分钟前
基于vlm+ocr+yolo的一键ai从模之屋下载模型
人工智能·python·yolo·ocr·vlm
DeepVis Research8 分钟前
【Chaos/Neuro】2026年度混沌动力学仿真与机器遗忘算法基准索引 (Benchmark Index)
人工智能·算法·数据集·混沌工程·高性能计算
Stardep8 分钟前
深度学习进阶:偏差方差分析与正则化策略全解析
人工智能·深度学习·dropout·正则化·过拟合·欠拟合·方差与偏差
kevin_kang13 分钟前
11-SQLAlchemy 2.0异步ORM实战指南
人工智能
AI架构师易筋23 分钟前
AI学习路径全景指南:从基础到工程化的资源与策略
人工智能·学习
计算机毕业设计指导23 分钟前
基于深度学习的车牌识别系统
人工智能·深度学习
九章算科研服务34 分钟前
九章算 JACS 解读-重庆大学黄建峰教授课题组:基于柯肯达尔效应构筑Cu/Ru异质界面空腔结构,用于高效NO3−电还原制NH3
人工智能·科研·dft计算·科研服务·硕博
Hcoco_me40 分钟前
大模型面试题27:Muon优化器小白版速懂
人工智能·rnn·自然语言处理·lstm·word2vec