LLM/HPC常见术语汇总

superior tigre2026-03-21 17:19

文章目录

一、基础架构类（LLM核心概念）
二、核心算子/层类（算子开发重点）
三、训练/推理优化类
四、性能/硬件相关类（算子开发核心）
五、推理策略类
汇总关键点

一、基础架构类（LLM核心概念）

术语	全称	核心解释	LLM场景关联
Transformer	-	2017年提出的序列建模架构，LLM的基础，由Encoder/Decoder、Self-Attention、FFN组成	所有现代LLM（LLaMA/Qwen/GLM）均基于Transformer变体
Encoder	编码器	双向注意力，输入序列全可见（如BERT）	仅Encoder架构少用，LLM多为Decoder-only
Decoder	解码器	单向因果注意力，只能看前文（如GPT）	LLM主流架构（LLaMA/GPT均为Decoder-only）
Token	-	文本的最小单位（字/词/子词），LLM的输入基本单元	如"大模型"可能拆为"大""模型"两个token
Vocab	Vocabulary	模型可识别的token字典，包含所有可生成的token	常见大小：32k/64k/128k（如LLaMA2 vocab=32000）
Embedding	-	将token转为高维向量（语义表示）	LLM第一层，输出维度为hidden_dim（如4096）
Hidden Dim	Hidden Dimension	模型每一层的特征维度（核心超参）	如LLaMA2-7B的hidden_dim=4096
FFN	Feed Forward Network	前馈网络，Transformer的非线性层	占模型计算量≈50%，核心是GEMM算子
Num Heads	Number of Attention Heads	多头注意力的头数	如LLaMA2-7B num_heads=32，拆分hidden_dim并行计算

二、核心算子/层类（算子开发重点）

术语	全称	核心解释	LLM场景关联
MHSA	Multi-Head Self-Attention	多头自注意力，将Q/K/V拆分为多个头并行计算，最后拼接	LLM最核心算子，显存/性能瓶颈所在
SA	Self-Attention	自注意力，计算token间的关联权重，聚合上下文信息	MHSA的基础单元，核心流程：Q·K^T→Softmax→×V
CA	Cross-Attention	交叉注意力，Decoder关注Encoder输出（如翻译模型）	多模态LLM（如GPT-4V）常用
LN	Layer Normalization	层归一化，对每个token的特征做归一化（减均值、除方差）	解决训练不稳定，LLM每一层后必用
RMSNorm	Root Mean Square Normalization	简化版LN，仅做均方根缩放（无均值减法）	LLaMA/Qwen等LLM标配，计算更快
BN	Batch Normalization	批归一化，对批次维度做归一化	LLM中几乎不用（序列长度不一致，批维度无意义）
Softmax	-	归一化函数，将分值转为和为1的概率分布	MHSA中归一化注意力权重，输出层生成token概率
ScaleSoftmax	-	带缩放的Softmax（分值/√head_dim）	MHSA专用，防止Q·K^T分值过大导致梯度消失
RoPE	Rotary Position Embedding	旋转位置编码，通过复数旋转给Q/K加入位置信息	LLaMA/Qwen主流位置编码方式，算子开发高频考点
ALiBi	Attention with Linear Biases	线性偏置位置编码，给注意力分值加位置偏置	推理友好，无需额外位置向量存储
GELU/SwiGLU	Gaussian Error Linear Units	激活函数，引入非线性	FFN层核心，SwiGLU是LLM主流（替代GELU）
GEMM	General Matrix Multiplication	通用矩阵乘法，支持任意形状矩阵乘	LLM 90%计算量来自GEMM（QKV投影/FFN）
MatMul	Matrix Multiplication	基础矩阵乘法	GEMM的子集，特指二维矩阵乘
Reduce	-	归约算子（Sum/Mean/Max/Var）	LN/RMSNorm/Softmax的核心子算子

三、训练/推理优化类

术语	全称	核心解释	LLM场景关联
KVCache	Key-Value Cache	推理时缓存历史K/V，避免重复计算注意力	LLM推理提速核心，显存占用主要来源
FlashAttention	-	高性能Attention实现，分块+内存复用降低显存	解决MHSA O(N²)显存问题，LLM训练/推理标配
PagedAttention	-	分页式KVCache，将缓存分页管理	vLLM推理引擎核心，支持动态批处理
MoE	Mixture of Experts	混合专家模型，稀疏激活不同专家网络	大模型扩容方案（如GLaM），降低计算量
TopK	-	选取分值最高的K个元素	MoE中选激活的专家，生成时选候选token
Gather/Scatter	-	聚合/分散算子，按索引读写数据	MoE中分发/收集token到对应专家
All2All	-	集体通信算子，跨卡全量数据交换	MoE多卡并行时，分发token到不同卡的专家
Dropout	-	正则化算子，随机屏蔽神经元输出	训练时防止过拟合，推理时关闭
Quantization	-	量化，降低数据精度（FP32→FP16/BF16/FP8/INT4）	减少显存占用、提升推理速度，算子开发重点
TP	Tensor Parallelism	张量并行，拆分模型参数到多卡	大模型训练/推理必用（如70B模型拆8卡）
PP	Pipeline Parallelism	流水线并行，拆分模型层到多卡	超大规模模型（如175B）的并行方式
ZeRO	Zero Redundancy Optimizer	零冗余优化器，拆分优化器状态到多卡	降低训练显存占用，主流大模型训练框架标配

四、性能/硬件相关类（算子开发核心）

术语	全称	核心解释	LLM场景关联
SM	Streaming Multiprocessor	GPU核心计算单元，包含CUDA Core/Tensor Core	算子线程块分配的基本单元
Tensor Core	-	NVIDIA专用矩阵计算单元，支持混合精度	GEMM算子性能优化核心，LLM计算提速关键
Warp	-	CUDA基本执行单元（32个线程）	Reduce/Softmax算子优化的核心粒度
Warp Shuffle	-	Warp内线程直接交换数据的指令	Reduce算子高性能实现的核心手段
Shared Memory	-	SM级高速共享内存（速度≈寄存器）	FlashAttention核心优化，减少全局内存访存
Global Memory	-	GPU全局显存（HBM）	LLM大张量存储位置，访存速度慢
Coalesced Access	-	全局内存合并访问，线程访问连续地址	算子访存优化的核心要求，提升带宽利用率
Kernel Fusion	-	算子融合，将多个算子合并为一个Kernel	减少中间张量存储，提升LLM算子吞吐量
Memory-Bound	-	算子性能瓶颈为内存访问（而非计算）	MHSA/Softmax/Reduce均为访存绑定
Compute-Bound	-	算子性能瓶颈为计算速度	GEMM/FFN层接近计算绑定

五、推理策略类

术语	全称	核心解释	LLM场景关联
Speculative Sampling	-	推测采样，小模型推测、大模型验证	提升LLM推理速度（如FastChat）
Beam Search	-	束搜索，保留多个候选序列生成结果	提升生成质量，推理延迟较高
Greedy Search	-	贪心搜索，每次选概率最高的token	推理速度最快，生成多样性低
Dynamic Batching	-	动态批处理，合并不同长度的推理请求	vLLM/TensorRT-LLM核心，提升吞吐量

汇总关键点

算子开发核心聚焦：MHSA/FlashAttention、LN/RMSNorm、Softmax、Reduce、RoPE、GEMM、KVCache、MoE相关算子；
LLM特有优化：KVCache、FlashAttention、量化、张量并行是区别于传统CV/NLP的核心；
硬件优化关键词：Tensor Core、Warp Shuffle、Shared Memory、Kernel Fusion是CUDA算子开发的核心抓手。

上一篇：Holoens2开发报错记录02_unity项目常见错误

下一篇：自动化机器学习（AutoML）库TPOT使用指南

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03CC-Switch & Claude 基于 Linux 服务器安装使用指南 04【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 05几个好用的ip纯净度检测网站 06裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 07装上就回不去了：CodeGraph 让 AI 编程效率飙升 92%，它到底做了什么？08【AI】2026 年具身智能模型和世界模型总结 09codex app每次打开重连5次Reconnecting问题解决 10用了半年 OpenRouter，我换到了 Ofox.ai — 两个 AI API 聚合平台的真实对比