大模型领域的核心相关名词解释

大模型领域的核心相关名词解释，按 基础架构 、主流开源模型系列 、关键技术组件 三大类整理，覆盖岗位中提到的核心概念及大模型基础知识点：

一、大模型核心基础架构

这类名词是所有大语言模型（LLM）的技术基石，决定了模型的核心能力和计算逻辑。

Transformer 架构
- 定义：2017年由谷歌提出的深度学习网络架构，是现代大模型的核心基础，核心创新是自注意力机制，替代了传统RNN、LSTM的序列式计算方式。
- 核心作用：能够并行捕捉文本序列中任意两个token（词/子词）之间的上下文依赖关系，解决了长文本处理效率低、长距离依赖捕捉能力弱的问题，支撑了千亿级参数量大模型的构建。
多头注意力机制（Multi-Head Attention）
- 定义：Transformer 架构的核心模块，将注意力机制拆分为多个独立的"注意力头"，每个头专注于捕捉文本中不同维度的关联信息（如语法结构、语义关联），最后将所有头的输出拼接并线性变换得到最终结果。
- 核心作用：让模型能够同时关注文本的多个不同特征维度，提升上下文理解的全面性，是大模型具备复杂语义分析能力的关键。
前馈神经网络（Feed-Forward Network, FFN）
- 定义：Transformer 层的另一核心模块，是一个两层的全连接神经网络，对多头注意力的输出进行非线性变换和特征提取。
- 核心作用：在注意力机制捕捉到上下文关联后，进一步对特征进行深度加工，增强模型的表达能力，通常是 Transformer 层中参数量和计算量最大的部分。
Encoder-Decoder 结构
- 定义：Transformer 的经典结构，由编码器（Encoder） 和解码器（Decoder） 两部分组成。编码器负责输入文本的特征编码（双向上下文理解），解码器负责基于编码特征生成目标文本（单向上下文生成）。
- 核心作用：适用于序列到序列（Seq2Seq） 任务，如机器翻译、文本摘要、数据生成等。
Decoder-only 结构
- 定义：仅由 Transformer 解码器堆叠而成的架构，解码器采用因果注意力机制（只能关注当前token之前的文本，无法关注后文）。
- 核心作用：是当前主流大模型（如 GPT、LLaMA、Qwen）的架构选择，擅长自回归生成任务，能够生成流畅、连贯的长文本，同时训练和推理效率更高。

二、主流开源大模型系列

这类名词是岗位中重点提及的、工业界广泛应用的开源大模型，是轻量化调优的核心对象。

Qwen（通义千问）
- 定义：阿里云达摩院研发的开源大语言模型系列，基于 Decoder-only 架构，支持中英文多任务处理，涵盖通用模型（Qwen1.5、Qwen2、Qwen3）和多模态模型（Qwen-VL）。
- 核心特点：参数量覆盖范围广（7B - 72B），开源生态完善，支持商用，在中文任务上表现优异，是国内大模型轻量化落地的主流选择。
DeepSeek
- 定义：深度求索（DeepSeek Inc.）研发的开源大模型系列，包含通用大模型（DeepSeek-V2、DeepSeek-V3）、代码大模型（DeepSeek-Coder）等，基于 Decoder-only 架构。
- 核心特点：在数学推理、代码生成等任务上性能突出，模型架构引入了高效注意力优化（如分组注意力），推理速度优势明显，适合对性能要求高的轻量化场景。
LLaMA（Large Language Model Meta AI）
- 定义：Meta（原Facebook）研发的开源基础大模型系列，基于 Decoder-only 架构，目前主流版本为 LLaMA2、LLaMA3。
- 核心特点：开源生态极其丰富，衍生出大量微调模型（如 Alpaca、Vicuna），参数量覆盖 7B - 70B，是大模型轻量化技术（量化、剪枝）的标杆测试模型，但商用需遵守 Meta 的授权协议。

三、大模型关键技术组件

这类名词是大模型推理和轻量化调优的核心关注点，直接影响模型的显存占用和推理性能。

KV-Cache（Key-Value Cache）
- 定义：大模型自回归推理时的缓存机制，在生成每个token的过程中，将注意力机制计算得到的 Key（键）和 Value（值）矩阵缓存起来，后续生成新token时无需重复计算历史token的Key和Value。
- 核心作用：大幅降低推理时的计算量，提升生成速度；但显存占用会随输入/生成序列长度线性增长，是长文本推理的核心显存瓶颈。
MoE 架构（Mixture of Experts，混合专家模型）
- 定义：一种稀疏激活的大模型架构，模型由多个独立的"专家网络"（通常是 FFN 模块）和一个"门控网络"组成。门控网络根据输入内容，选择少数几个专家网络参与计算，而非全部专家。
- 核心特点：参数量可轻松扩展至千亿/万亿级，但实际激活的参数量仅为小部分，兼顾模型能力和推理效率；轻量化调优的难点在于解决专家选择机制与硬件适配的兼容性问题。
Token 与 Tokenization
- 定义：
  - Token：大模型处理文本的最小单位，可分为单词、子词或字符（如"大模型"可能被拆分为"大""模型"两个token）。
  - Tokenization：将原始文本转换为模型可识别的 Token 序列的过程，是大模型处理文本的前置步骤。
- 核心作用：Token数量决定了模型的输入长度上限，直接影响 KV-Cache 的显存占用和推理速度，是轻量化部署时输入长度优化的关键。
Embedding 层
- 定义：大模型的输入层，负责将离散的 Token 转换为连续的稠密向量（Embedding 向量），向量的维度即为模型的隐藏层维度（如 4096、5120）。
- 核心作用：是模型理解文本语义的基础，该层权重通常占模型总参数量的 10% - 20%，也是轻量化调优中敏感层分析的重点对象（量化易导致精度损失）。

大模型关键技术组件名词解释，结合轻量化调优、推理部署：

一、输入处理核心组件

这类组件是大模型接收、解析文本数据的前置模块，直接影响模型输入效率与适配性。

Token（词元）
- 定义：大模型处理自然语言的最小语义单位，既可以是单个字符、单词，也可以是子词（如英文"unhappiness"拆分为"un-""happy""-ness"）。
- 核心作用：将人类可读的文本转换为模型可计算的离散序列，是文本与模型之间的桥梁。
- 岗位关联：Token数量决定模型输入长度上限，影响 KV-Cache 显存占用，是长文本推理优化的关键考量因素。
Tokenization（分词）
- 定义：将原始文本切分为 Token 序列，并映射为模型可识别的数字索引的过程，主流分词算法有 BPE（字节对编码）、WordPiece、SentencePiece。
- 核心作用：解决未登录词（模型词典中没有的词）问题，保证文本的完整性和语义准确性。
- 岗位关联：不同模型的分词器不通用（如LLaMA与Qwen的分词器差异），轻量化部署时需确保分词逻辑与模型适配，避免推理报错。
Embedding 层（嵌入层）
- 定义：大模型的输入层，负责将 Token 对应的数字索引转换为稠密的低维向量（即Embedding向量），向量维度与模型隐藏层维度一致。
- 核心作用：将离散的 Token 映射到连续的语义空间，让模型能够捕捉 Token 之间的语义关联（如"苹果"和"水果"的向量距离更近）。
- 岗位关联：该层权重占模型总参数量的10% - 20%，且对量化操作高度敏感，是敏感层分析策略的重点对象，通常需要采用高精度量化或不量化。

二、模型计算核心组件

这类组件是大模型的"算力核心"，决定模型的推理性能与显存占用，是轻量化调优的核心目标。

多头注意力机制（Multi-Head Attention）
- 定义：Transformer 架构的核心计算模块，将模型的隐藏层向量拆分为多个"注意力头"，每个头独立计算 Query（查询）、Key（键）、Value（值）矩阵，并通过注意力得分捕捉 Token 间的上下文依赖，最后拼接所有头的结果并线性变换输出。
- 核心作用：让模型同时关注文本的不同语义维度（如语法结构、指代关系），是大模型具备上下文理解能力的关键。
- 岗位关联：注意力机制的计算量与序列长度的平方成正比，是长文本推理的性能瓶颈；同时，注意力头存在冗余性，可通过注意力头剪枝实现轻量化。
KV-Cache（Key-Value 缓存）
- 定义：大模型自回归推理时的显存优化机制，在生成第一个 Token 时，计算并缓存所有输入 Token 的 Key 和 Value 矩阵；后续生成新 Token 时，只需计算新 Token 的 Query 矩阵，与缓存的 K/V 矩阵计算注意力得分，无需重复计算历史 Token 的 K/V。
- 核心作用：将推理计算复杂度从 O(n2)O(n^2)O(n2) 降至 O(n)O(n)O(n)，大幅提升生成速度。
- 岗位关联：KV-Cache 的显存占用随序列长度线性增长，是长文本推理的核心显存瓶颈 ；轻量化调优中需通过稀疏化（只缓存关键 Token 的 K/V） 或量化（INT8/FP8 压缩 K/V 数据） 降低显存占用。
前馈神经网络（Feed-Forward Network, FFN）
- 定义：Transformer 层的另一核心计算模块，由两层全连接网络和激活函数（如 GELU）组成，对多头注意力的输出进行非线性变换和特征提取。
- 核心作用：进一步加工注意力机制捕捉到的上下文特征，增强模型的语义表达能力；该模块的参数量通常占 Transformer 层总参数量的 70% 以上。
- 岗位关联：FFN 层存在大量冗余参数，是结构化剪枝 和低秩分解的重点对象（如将大矩阵分解为两个小矩阵），轻量化空间最大。
归一化层（Layer Normalization）
- 定义：对 Transformer 层的输入或输出数据进行均值和方差归一化的模块，分为 Pre-LN（归一化在注意力/FFN 之前）和 Post-LN（归一化在之后）两种主流方案。
- 核心作用：解决模型训练过程中的梯度消失/爆炸问题，加速模型收敛，提升训练稳定性。
- 岗位关联：归一化层的计算逻辑简单，但对量化精度不敏感，轻量化时可优先采用低精度量化。

三、推理与轻量化专属组件

这类组件是大模型落地部署的关键技术模块，直接影响轻量化方案的效果与推理性能。

量化校准集
- 定义：在模型量化（如 PTQ 训练后量化）过程中，用于统计模型激活值分布的小批量代表性数据，通常从训练集或验证集中采样。
- 核心作用：通过校准集的激活值分布，确定量化的缩放因子和零点，减少量化过程中的精度损失。
- 岗位关联：校准集的质量直接决定量化效果，是 W4A8/W8A8 量化精度恢复方案的核心要素。
稀疏掩码（Sparse Mask）
- 定义：在模型稀疏化过程中，用于标记冗余权重的二进制矩阵（值为 0 表示权重可移除，值为 1 表示权重需保留）。
- 核心作用：指导模型剪枝操作，实现结构化稀疏（如移除整个注意力头、FFN 通道）或非结构化稀疏（移除单个冗余权重）。
- 岗位关联：稀疏掩码的设计需结合昇腾 NPU 的硬件特性，优先采用硬件支持的结构化稀疏格式，才能充分发挥硬件的加速能力。
专家网络（Expert Network）
- 定义：MoE 架构的核心组件，由多个独立的 FFN 模块组成，每个专家负责处理特定类型的输入特征。
- 核心作用：MoE 架构通过门控网络选择少数专家参与计算，实现稀疏激活，在不显著增加推理计算量的前提下，提升模型参数量和能力上限。
- 岗位关联：专家网络的数量和规模是 MoE 模型显存瓶颈的关键，轻量化调优需通过专家剪枝、量化降低显存占用，同时优化门控网络的选择策略提升推理效率。

四、模型输出核心组件

这类组件决定大模型的最终生成效果，是轻量化后精度验证的重点。

Softmax 层
- 定义：大模型的输出层，将 Transformer 解码器的输出向量转换为各 Token 的概率分布，概率最高的 Token 即为模型生成的下一个词。
- 核心作用：实现从模型隐藏层向量到 Token 概率的映射，是自回归生成的关键步骤。
- 岗位关联：该层对量化操作较为敏感，量化后易出现概率分布畸变，导致生成文本质量下降，需在轻量化方案中重点验证精度。
生成策略（如 Beam Search、采样）
- 定义：控制模型生成文本的策略，分为确定性策略（如 Beam Search，选择概率最高的 Token 序列）和随机性策略（如 Top-K、Temperature 采样，引入随机性提升文本多样性）。
- 核心作用：平衡生成文本的流畅性和多样性，适配不同业务场景（如摘要生成用 Beam Search，对话生成用采样）。
- 岗位关联：轻量化后的模型可能存在精度损失，需调整生成策略参数（如降低 Temperature），弥补生成质量的下降。

大模型关键组件轻量化优化要点清单

这份清单聚焦每个组件的最优轻量化手段 和核心注意事项，同时结合昇腾平台硬件特性与岗位需求，方便落地实践：

组件分类	组件名称	最优轻量化手段	核心注意事项
输入处理核心组件	Tokenization（分词）	1. 统一分词器词典，减少特殊Token数量 2. 对长文本采用分片推理+结果拼接策略	1. 不同模型分词器不通用，轻量化部署时需确保分词逻辑与模型严格匹配 2. 分片推理需处理分片边界的上下文断裂问题，避免生成质量下降
	Embedding 层	1. 优先采用低秩分解（将高维嵌入矩阵分解为两个低维矩阵） 2. 若需量化，选择 FP8/INT8 混合量化，敏感场景可保留 FP16 精度	1. 该层对量化高度敏感，直接INT4量化会导致严重精度损失 2. 分解后的矩阵维度需适配昇腾NPU的矩阵计算单元，提升硬件利用率
模型计算核心组件	多头注意力机制	1. 注意力头剪枝：移除冗余注意力头（通过敏感度分析筛选） 2. KV矩阵采用 INT8/FP8 量化，Query矩阵保留FP16精度 3. 长文本场景启用稀疏注意力（如只关注局部窗口Token）	1. 剪枝需保留核心注意力头（如捕捉语义关联的头），避免模型理解能力下降 2. 昇腾NPU对INT8矩阵乘法有硬件加速，量化后需基于CANN优化计算逻辑
	KV-Cache	1. 量化优化：默认采用INT8量化，极致压缩场景用INT4+精度补偿 2. 稀疏优化：缓存关键Token的KV值，过滤低贡献度Token 3. 动态缓存：根据输入序列长度动态调整缓存大小	1. KV-Cache量化是长文本推理显存优化的核心，需搭配高质量校准集 2. 稀疏缓存的Token筛选策略需结合业务场景（如对话场景保留核心实体）
	前馈神经网络（FFN）	1. 结构化通道剪枝：移除冗余的FFN隐藏层通道 2. 低秩分解：将FFN的大矩阵分解为两个小矩阵的乘积 3. 优先采用 W4A8 量化，是轻量化空间最大的组件	1. 剪枝比例可高达30%-50%，需通过验证集测试确定最优剪枝率 2. 低秩分解后的矩阵需满足昇腾NPU的内存访问对齐要求，避免性能损耗
	归一化层（Layer Normalization）	1. 直接采用 INT8 量化，无需精度补偿 2. 推理阶段可将归一化参数融合到相邻的线性层，减少计算步骤	1. 该层对量化不敏感，量化后精度损失可忽略 2. 层融合需基于昇腾CANN的算子融合工具，提升推理并行度
推理与轻量化专属组件	量化校准集	1. 选择业务场景代表性数据作为校准集（数量500-1000条） 2. 校准集需覆盖模型的核心输入分布（如不同长度、领域的文本）	1. 校准集质量直接决定量化效果，避免使用与业务无关的通用数据 2. 昇腾平台量化工具需配置校准集的加载方式，确保数据格式兼容
	稀疏掩码	1. 优先采用结构化稀疏掩码（如按注意力头、FFN通道划分） 2. 稀疏率设置需匹配昇腾NPU的稀疏计算加速要求（如4:1稀疏比）	1. 非结构化稀疏在昇腾NPU上无加速效果，不建议使用 2. 稀疏掩码需固化到模型中，推理时避免动态计算掩码
	MoE 专家网络	1. 专家剪枝：移除低激活频率的冗余专家 2. 专家权重采用 W4A8 量化，门控网络保留FP16精度 3. 推理阶段优化专家选择策略，减少专家切换的开销	1. 专家剪枝需避免移除核心领域的专家，需统计各专家的激活频率 2. 昇腾NPU需开启多专家并行计算模式，提升MoE模型的推理速度
模型输出核心组件	Softmax 层	1. 采用 FP8 量化，避免INT8量化导致的概率分布畸变 2. 推理阶段可结合生成策略（如Top-K），优化概率计算流程	1. 该层对量化敏感度中等，INT4量化会导致生成文本重复、不通顺 2. 需基于昇腾推理框架优化Softmax算子，降低长序列下的计算延迟

大模型领域的核心相关名词解释

一、 大模型核心基础架构

二、 主流开源大模型系列

三、 大模型关键技术组件

一、 输入处理核心组件

二、 模型计算核心组件

三、 推理与轻量化专属组件

四、 模型输出核心组件