LLM/HPC常见术语汇总

文章目录

一、基础架构类(LLM核心概念)

术语 全称 核心解释 LLM场景关联
Transformer - 2017年提出的序列建模架构,LLM的基础,由Encoder/Decoder、Self-Attention、FFN组成 所有现代LLM(LLaMA/Qwen/GLM)均基于Transformer变体
Encoder 编码器 双向注意力,输入序列全可见(如BERT) 仅Encoder架构少用,LLM多为Decoder-only
Decoder 解码器 单向因果注意力,只能看前文(如GPT) LLM主流架构(LLaMA/GPT均为Decoder-only)
Token - 文本的最小单位(字/词/子词),LLM的输入基本单元 如"大模型"可能拆为"大""模型"两个token
Vocab Vocabulary 模型可识别的token字典,包含所有可生成的token 常见大小:32k/64k/128k(如LLaMA2 vocab=32000)
Embedding - 将token转为高维向量(语义表示) LLM第一层,输出维度为hidden_dim(如4096)
Hidden Dim Hidden Dimension 模型每一层的特征维度(核心超参) 如LLaMA2-7B的hidden_dim=4096
FFN Feed Forward Network 前馈网络,Transformer的非线性层 占模型计算量≈50%,核心是GEMM算子
Num Heads Number of Attention Heads 多头注意力的头数 如LLaMA2-7B num_heads=32,拆分hidden_dim并行计算

二、核心算子/层类(算子开发重点)

术语 全称 核心解释 LLM场景关联
MHSA Multi-Head Self-Attention 多头自注意力,将Q/K/V拆分为多个头并行计算,最后拼接 LLM最核心算子,显存/性能瓶颈所在
SA Self-Attention 自注意力,计算token间的关联权重,聚合上下文信息 MHSA的基础单元,核心流程:Q·K^T→Softmax→×V
CA Cross-Attention 交叉注意力,Decoder关注Encoder输出(如翻译模型) 多模态LLM(如GPT-4V)常用
LN Layer Normalization 层归一化,对每个token的特征做归一化(减均值、除方差) 解决训练不稳定,LLM每一层后必用
RMSNorm Root Mean Square Normalization 简化版LN,仅做均方根缩放(无均值减法) LLaMA/Qwen等LLM标配,计算更快
BN Batch Normalization 批归一化,对批次维度做归一化 LLM中几乎不用(序列长度不一致,批维度无意义)
Softmax - 归一化函数,将分值转为和为1的概率分布 MHSA中归一化注意力权重,输出层生成token概率
ScaleSoftmax - 带缩放的Softmax(分值/√head_dim) MHSA专用,防止Q·K^T分值过大导致梯度消失
RoPE Rotary Position Embedding 旋转位置编码,通过复数旋转给Q/K加入位置信息 LLaMA/Qwen主流位置编码方式,算子开发高频考点
ALiBi Attention with Linear Biases 线性偏置位置编码,给注意力分值加位置偏置 推理友好,无需额外位置向量存储
GELU/SwiGLU Gaussian Error Linear Units 激活函数,引入非线性 FFN层核心,SwiGLU是LLM主流(替代GELU)
GEMM General Matrix Multiplication 通用矩阵乘法,支持任意形状矩阵乘 LLM 90%计算量来自GEMM(QKV投影/FFN)
MatMul Matrix Multiplication 基础矩阵乘法 GEMM的子集,特指二维矩阵乘
Reduce - 归约算子(Sum/Mean/Max/Var) LN/RMSNorm/Softmax的核心子算子

三、训练/推理优化类

术语 全称 核心解释 LLM场景关联
KVCache Key-Value Cache 推理时缓存历史K/V,避免重复计算注意力 LLM推理提速核心,显存占用主要来源
FlashAttention - 高性能Attention实现,分块+内存复用降低显存 解决MHSA O(N²)显存问题,LLM训练/推理标配
PagedAttention - 分页式KVCache,将缓存分页管理 vLLM推理引擎核心,支持动态批处理
MoE Mixture of Experts 混合专家模型,稀疏激活不同专家网络 大模型扩容方案(如GLaM),降低计算量
TopK - 选取分值最高的K个元素 MoE中选激活的专家,生成时选候选token
Gather/Scatter - 聚合/分散算子,按索引读写数据 MoE中分发/收集token到对应专家
All2All - 集体通信算子,跨卡全量数据交换 MoE多卡并行时,分发token到不同卡的专家
Dropout - 正则化算子,随机屏蔽神经元输出 训练时防止过拟合,推理时关闭
Quantization - 量化,降低数据精度(FP32→FP16/BF16/FP8/INT4) 减少显存占用、提升推理速度,算子开发重点
TP Tensor Parallelism 张量并行,拆分模型参数到多卡 大模型训练/推理必用(如70B模型拆8卡)
PP Pipeline Parallelism 流水线并行,拆分模型层到多卡 超大规模模型(如175B)的并行方式
ZeRO Zero Redundancy Optimizer 零冗余优化器,拆分优化器状态到多卡 降低训练显存占用,主流大模型训练框架标配

四、性能/硬件相关类(算子开发核心)

术语 全称 核心解释 LLM场景关联
SM Streaming Multiprocessor GPU核心计算单元,包含CUDA Core/Tensor Core 算子线程块分配的基本单元
Tensor Core - NVIDIA专用矩阵计算单元,支持混合精度 GEMM算子性能优化核心,LLM计算提速关键
Warp - CUDA基本执行单元(32个线程) Reduce/Softmax算子优化的核心粒度
Warp Shuffle - Warp内线程直接交换数据的指令 Reduce算子高性能实现的核心手段
Shared Memory - SM级高速共享内存(速度≈寄存器) FlashAttention核心优化,减少全局内存访存
Global Memory - GPU全局显存(HBM) LLM大张量存储位置,访存速度慢
Coalesced Access - 全局内存合并访问,线程访问连续地址 算子访存优化的核心要求,提升带宽利用率
Kernel Fusion - 算子融合,将多个算子合并为一个Kernel 减少中间张量存储,提升LLM算子吞吐量
Memory-Bound - 算子性能瓶颈为内存访问(而非计算) MHSA/Softmax/Reduce均为访存绑定
Compute-Bound - 算子性能瓶颈为计算速度 GEMM/FFN层接近计算绑定

五、推理策略类

术语 全称 核心解释 LLM场景关联
Speculative Sampling - 推测采样,小模型推测、大模型验证 提升LLM推理速度(如FastChat)
Beam Search - 束搜索,保留多个候选序列生成结果 提升生成质量,推理延迟较高
Greedy Search - 贪心搜索,每次选概率最高的token 推理速度最快,生成多样性低
Dynamic Batching - 动态批处理,合并不同长度的推理请求 vLLM/TensorRT-LLM核心,提升吞吐量

汇总关键点

  1. 算子开发核心聚焦:MHSA/FlashAttention、LN/RMSNorm、Softmax、Reduce、RoPE、GEMM、KVCache、MoE相关算子;
  2. LLM特有优化:KVCache、FlashAttention、量化、张量并行是区别于传统CV/NLP的核心;
  3. 硬件优化关键词:Tensor Core、Warp Shuffle、Shared Memory、Kernel Fusion是CUDA算子开发的核心抓手。
相关推荐
乱世刀疤1 小时前
openclaw更换模型操作步骤
人工智能
高德开放平台1 小时前
Skill 上新|高德开放平台上线 Amap SDK Skills!
人工智能·信息可视化·开发者·高德地图
junjunzai1232 小时前
设置cuda:1但是cuda:0在波动的问题
人工智能·深度学习
Peter·Pan爱编程2 小时前
深度解析MiniMax M2.7:当AI学会“自我进化”,以及如何通过Ollama本地体验最强Agent
人工智能·ai编程·agent skills·openclaw
帐篷Li2 小时前
【AgenticCPS 】CPS联盟返利系统 - 实施计划
大数据·网络·人工智能
罗罗攀2 小时前
PyTorch学习笔记|张量的广播和科学运算
人工智能·pytorch·笔记·python·学习
倦王2 小时前
Dify2:提示词工程与运用
人工智能
PhotonixBay2 小时前
共聚焦显微镜的结构组成与应用
人工智能·算法·机器学习
大傻^2 小时前
Spring AI Alibaba Function Calling:外部工具集成与业务函数注册
java·人工智能·后端·spring·springai·springaialibaba