大模型领域的核心相关名词解释,按 基础架构 、主流开源模型系列 、关键技术组件 三大类整理,覆盖岗位中提到的核心概念及大模型基础知识点:
一、 大模型核心基础架构
这类名词是所有大语言模型(LLM)的技术基石,决定了模型的核心能力和计算逻辑。
- Transformer 架构
- 定义:2017年由谷歌提出的深度学习网络架构,是现代大模型的核心基础,核心创新是自注意力机制,替代了传统RNN、LSTM的序列式计算方式。
- 核心作用:能够并行捕捉文本序列中任意两个token(词/子词)之间的上下文依赖关系,解决了长文本处理效率低、长距离依赖捕捉能力弱的问题,支撑了千亿级参数量大模型的构建。
- 多头注意力机制(Multi-Head Attention)
- 定义:Transformer 架构的核心模块,将注意力机制拆分为多个独立的"注意力头",每个头专注于捕捉文本中不同维度的关联信息(如语法结构、语义关联),最后将所有头的输出拼接并线性变换得到最终结果。
- 核心作用:让模型能够同时关注文本的多个不同特征维度,提升上下文理解的全面性,是大模型具备复杂语义分析能力的关键。
- 前馈神经网络(Feed-Forward Network, FFN)
- 定义:Transformer 层的另一核心模块,是一个两层的全连接神经网络,对多头注意力的输出进行非线性变换和特征提取。
- 核心作用:在注意力机制捕捉到上下文关联后,进一步对特征进行深度加工,增强模型的表达能力,通常是 Transformer 层中参数量和计算量最大的部分。
- Encoder-Decoder 结构
- 定义:Transformer 的经典结构,由编码器(Encoder) 和解码器(Decoder) 两部分组成。编码器负责输入文本的特征编码(双向上下文理解),解码器负责基于编码特征生成目标文本(单向上下文生成)。
- 核心作用:适用于序列到序列(Seq2Seq) 任务,如机器翻译、文本摘要、数据生成等。
- Decoder-only 结构
- 定义:仅由 Transformer 解码器堆叠而成的架构,解码器采用因果注意力机制(只能关注当前token之前的文本,无法关注后文)。
- 核心作用:是当前主流大模型(如 GPT、LLaMA、Qwen)的架构选择,擅长自回归生成任务,能够生成流畅、连贯的长文本,同时训练和推理效率更高。
二、 主流开源大模型系列
这类名词是岗位中重点提及的、工业界广泛应用的开源大模型,是轻量化调优的核心对象。
- Qwen(通义千问)
- 定义:阿里云达摩院研发的开源大语言模型系列,基于 Decoder-only 架构,支持中英文多任务处理,涵盖通用模型(Qwen1.5、Qwen2、Qwen3)和多模态模型(Qwen-VL)。
- 核心特点:参数量覆盖范围广(7B - 72B),开源生态完善,支持商用,在中文任务上表现优异,是国内大模型轻量化落地的主流选择。
- DeepSeek
- 定义:深度求索(DeepSeek Inc.)研发的开源大模型系列,包含通用大模型(DeepSeek-V2、DeepSeek-V3)、代码大模型(DeepSeek-Coder)等,基于 Decoder-only 架构。
- 核心特点:在数学推理、代码生成等任务上性能突出,模型架构引入了高效注意力优化(如分组注意力),推理速度优势明显,适合对性能要求高的轻量化场景。
- LLaMA(Large Language Model Meta AI)
- 定义:Meta(原Facebook)研发的开源基础大模型系列,基于 Decoder-only 架构,目前主流版本为 LLaMA2、LLaMA3。
- 核心特点:开源生态极其丰富,衍生出大量微调模型(如 Alpaca、Vicuna),参数量覆盖 7B - 70B,是大模型轻量化技术(量化、剪枝)的标杆测试模型,但商用需遵守 Meta 的授权协议。
三、 大模型关键技术组件
这类名词是大模型推理和轻量化调优的核心关注点,直接影响模型的显存占用和推理性能。
- KV-Cache(Key-Value Cache)
- 定义:大模型自回归推理时的缓存机制,在生成每个token的过程中,将注意力机制计算得到的 Key(键)和 Value(值)矩阵缓存起来,后续生成新token时无需重复计算历史token的Key和Value。
- 核心作用:大幅降低推理时的计算量,提升生成速度;但显存占用会随输入/生成序列长度线性增长,是长文本推理的核心显存瓶颈。
- MoE 架构(Mixture of Experts,混合专家模型)
- 定义:一种稀疏激活的大模型架构,模型由多个独立的"专家网络"(通常是 FFN 模块)和一个"门控网络"组成。门控网络根据输入内容,选择少数几个专家网络参与计算,而非全部专家。
- 核心特点:参数量可轻松扩展至千亿/万亿级,但实际激活的参数量仅为小部分,兼顾模型能力和推理效率;轻量化调优的难点在于解决专家选择机制与硬件适配的兼容性问题。
- Token 与 Tokenization
- 定义:
- Token:大模型处理文本的最小单位,可分为单词、子词或字符(如"大模型"可能被拆分为"大""模型"两个token)。
- Tokenization:将原始文本转换为模型可识别的 Token 序列的过程,是大模型处理文本的前置步骤。
- 核心作用:Token数量决定了模型的输入长度上限,直接影响 KV-Cache 的显存占用和推理速度,是轻量化部署时输入长度优化的关键。
- 定义:
- Embedding 层
- 定义:大模型的输入层,负责将离散的 Token 转换为连续的稠密向量(Embedding 向量),向量的维度即为模型的隐藏层维度(如 4096、5120)。
- 核心作用:是模型理解文本语义的基础,该层权重通常占模型总参数量的 10% - 20%,也是轻量化调优中敏感层分析的重点对象(量化易导致精度损失)。
大模型关键技术组件名词解释,结合轻量化调优、推理部署:
一、 输入处理核心组件
这类组件是大模型接收、解析文本数据的前置模块,直接影响模型输入效率与适配性。
- Token(词元)
- 定义:大模型处理自然语言的最小语义单位,既可以是单个字符、单词,也可以是子词(如英文"unhappiness"拆分为"un-""happy""-ness")。
- 核心作用:将人类可读的文本转换为模型可计算的离散序列,是文本与模型之间的桥梁。
- 岗位关联:Token数量决定模型输入长度上限,影响 KV-Cache 显存占用,是长文本推理优化的关键考量因素。
- Tokenization(分词)
- 定义:将原始文本切分为 Token 序列,并映射为模型可识别的数字索引的过程,主流分词算法有 BPE(字节对编码)、WordPiece、SentencePiece。
- 核心作用:解决未登录词(模型词典中没有的词)问题,保证文本的完整性和语义准确性。
- 岗位关联:不同模型的分词器不通用(如LLaMA与Qwen的分词器差异),轻量化部署时需确保分词逻辑与模型适配,避免推理报错。
- Embedding 层(嵌入层)
- 定义:大模型的输入层,负责将 Token 对应的数字索引转换为稠密的低维向量(即Embedding向量),向量维度与模型隐藏层维度一致。
- 核心作用:将离散的 Token 映射到连续的语义空间,让模型能够捕捉 Token 之间的语义关联(如"苹果"和"水果"的向量距离更近)。
- 岗位关联:该层权重占模型总参数量的10% - 20%,且对量化操作高度敏感,是敏感层分析策略的重点对象,通常需要采用高精度量化或不量化。
二、 模型计算核心组件
这类组件是大模型的"算力核心",决定模型的推理性能与显存占用,是轻量化调优的核心目标。
- 多头注意力机制(Multi-Head Attention)
- 定义:Transformer 架构的核心计算模块,将模型的隐藏层向量拆分为多个"注意力头",每个头独立计算 Query(查询)、Key(键)、Value(值)矩阵,并通过注意力得分捕捉 Token 间的上下文依赖,最后拼接所有头的结果并线性变换输出。
- 核心作用:让模型同时关注文本的不同语义维度(如语法结构、指代关系),是大模型具备上下文理解能力的关键。
- 岗位关联:注意力机制的计算量与序列长度的平方成正比,是长文本推理的性能瓶颈;同时,注意力头存在冗余性,可通过注意力头剪枝实现轻量化。
- KV-Cache(Key-Value 缓存)
- 定义:大模型自回归推理时的显存优化机制,在生成第一个 Token 时,计算并缓存所有输入 Token 的 Key 和 Value 矩阵;后续生成新 Token 时,只需计算新 Token 的 Query 矩阵,与缓存的 K/V 矩阵计算注意力得分,无需重复计算历史 Token 的 K/V。
- 核心作用:将推理计算复杂度从 O(n2)O(n^2)O(n2) 降至 O(n)O(n)O(n),大幅提升生成速度。
- 岗位关联:KV-Cache 的显存占用随序列长度线性增长,是长文本推理的核心显存瓶颈 ;轻量化调优中需通过稀疏化(只缓存关键 Token 的 K/V) 或量化(INT8/FP8 压缩 K/V 数据) 降低显存占用。
- 前馈神经网络(Feed-Forward Network, FFN)
- 定义:Transformer 层的另一核心计算模块,由两层全连接网络和激活函数(如 GELU)组成,对多头注意力的输出进行非线性变换和特征提取。
- 核心作用:进一步加工注意力机制捕捉到的上下文特征,增强模型的语义表达能力;该模块的参数量通常占 Transformer 层总参数量的 70% 以上。
- 岗位关联:FFN 层存在大量冗余参数,是结构化剪枝 和低秩分解的重点对象(如将大矩阵分解为两个小矩阵),轻量化空间最大。
- 归一化层(Layer Normalization)
- 定义:对 Transformer 层的输入或输出数据进行均值和方差归一化的模块,分为 Pre-LN(归一化在注意力/FFN 之前)和 Post-LN(归一化在之后)两种主流方案。
- 核心作用:解决模型训练过程中的梯度消失/爆炸问题,加速模型收敛,提升训练稳定性。
- 岗位关联:归一化层的计算逻辑简单,但对量化精度不敏感,轻量化时可优先采用低精度量化。
三、 推理与轻量化专属组件
这类组件是大模型落地部署的关键技术模块,直接影响轻量化方案的效果与推理性能。
- 量化校准集
- 定义:在模型量化(如 PTQ 训练后量化)过程中,用于统计模型激活值分布的小批量代表性数据,通常从训练集或验证集中采样。
- 核心作用:通过校准集的激活值分布,确定量化的缩放因子和零点,减少量化过程中的精度损失。
- 岗位关联:校准集的质量直接决定量化效果,是 W4A8/W8A8 量化精度恢复方案的核心要素。
- 稀疏掩码(Sparse Mask)
- 定义:在模型稀疏化过程中,用于标记冗余权重的二进制矩阵(值为 0 表示权重可移除,值为 1 表示权重需保留)。
- 核心作用:指导模型剪枝操作,实现结构化稀疏(如移除整个注意力头、FFN 通道)或非结构化稀疏(移除单个冗余权重)。
- 岗位关联:稀疏掩码的设计需结合昇腾 NPU 的硬件特性,优先采用硬件支持的结构化稀疏格式,才能充分发挥硬件的加速能力。
- 专家网络(Expert Network)
- 定义:MoE 架构的核心组件,由多个独立的 FFN 模块组成,每个专家负责处理特定类型的输入特征。
- 核心作用:MoE 架构通过门控网络选择少数专家参与计算,实现稀疏激活,在不显著增加推理计算量的前提下,提升模型参数量和能力上限。
- 岗位关联:专家网络的数量和规模是 MoE 模型显存瓶颈的关键,轻量化调优需通过专家剪枝、量化降低显存占用,同时优化门控网络的选择策略提升推理效率。
四、 模型输出核心组件
这类组件决定大模型的最终生成效果,是轻量化后精度验证的重点。
- Softmax 层
- 定义:大模型的输出层,将 Transformer 解码器的输出向量转换为各 Token 的概率分布,概率最高的 Token 即为模型生成的下一个词。
- 核心作用:实现从模型隐藏层向量到 Token 概率的映射,是自回归生成的关键步骤。
- 岗位关联:该层对量化操作较为敏感,量化后易出现概率分布畸变,导致生成文本质量下降,需在轻量化方案中重点验证精度。
- 生成策略(如 Beam Search、采样)
- 定义:控制模型生成文本的策略,分为确定性策略(如 Beam Search,选择概率最高的 Token 序列)和随机性策略(如 Top-K、Temperature 采样,引入随机性提升文本多样性)。
- 核心作用:平衡生成文本的流畅性和多样性,适配不同业务场景(如摘要生成用 Beam Search,对话生成用采样)。
- 岗位关联:轻量化后的模型可能存在精度损失,需调整生成策略参数(如降低 Temperature),弥补生成质量的下降。
大模型关键组件轻量化优化要点清单
这份清单聚焦每个组件的最优轻量化手段 和核心注意事项,同时结合昇腾平台硬件特性与岗位需求,方便落地实践:
| 组件分类 | 组件名称 | 最优轻量化手段 | 核心注意事项 |
|---|---|---|---|
| 输入处理核心组件 | Tokenization(分词) | 1. 统一分词器词典,减少特殊Token数量 2. 对长文本采用分片推理+结果拼接策略 | 1. 不同模型分词器不通用,轻量化部署时需确保分词逻辑与模型严格匹配 2. 分片推理需处理分片边界的上下文断裂问题,避免生成质量下降 |
| Embedding 层 | 1. 优先采用低秩分解 (将高维嵌入矩阵分解为两个低维矩阵) 2. 若需量化,选择 FP8/INT8 混合量化,敏感场景可保留 FP16 精度 | 1. 该层对量化高度敏感,直接INT4量化会导致严重精度损失 2. 分解后的矩阵维度需适配昇腾NPU的矩阵计算单元,提升硬件利用率 | |
| 模型计算核心组件 | 多头注意力机制 | 1. 注意力头剪枝 :移除冗余注意力头(通过敏感度分析筛选) 2. KV矩阵采用 INT8/FP8 量化 ,Query矩阵保留FP16精度 3. 长文本场景启用稀疏注意力(如只关注局部窗口Token) | 1. 剪枝需保留核心注意力头(如捕捉语义关联的头),避免模型理解能力下降 2. 昇腾NPU对INT8矩阵乘法有硬件加速,量化后需基于CANN优化计算逻辑 |
| KV-Cache | 1. 量化优化 :默认采用INT8量化,极致压缩场景用INT4+精度补偿 2. 稀疏优化 :缓存关键Token的KV值,过滤低贡献度Token 3. 动态缓存:根据输入序列长度动态调整缓存大小 | 1. KV-Cache量化是长文本推理显存优化的核心,需搭配高质量校准集 2. 稀疏缓存的Token筛选策略需结合业务场景(如对话场景保留核心实体) | |
| 前馈神经网络(FFN) | 1. 结构化通道剪枝 :移除冗余的FFN隐藏层通道 2. 低秩分解 :将FFN的大矩阵分解为两个小矩阵的乘积 3. 优先采用 W4A8 量化,是轻量化空间最大的组件 | 1. 剪枝比例可高达30%-50%,需通过验证集测试确定最优剪枝率 2. 低秩分解后的矩阵需满足昇腾NPU的内存访问对齐要求,避免性能损耗 | |
| 归一化层(Layer Normalization) | 1. 直接采用 INT8 量化 ,无需精度补偿 2. 推理阶段可将归一化参数融合到相邻的线性层,减少计算步骤 | 1. 该层对量化不敏感,量化后精度损失可忽略 2. 层融合需基于昇腾CANN的算子融合工具,提升推理并行度 | |
| 推理与轻量化专属组件 | 量化校准集 | 1. 选择业务场景代表性数据 作为校准集(数量500-1000条) 2. 校准集需覆盖模型的核心输入分布(如不同长度、领域的文本) | 1. 校准集质量直接决定量化效果,避免使用与业务无关的通用数据 2. 昇腾平台量化工具需配置校准集的加载方式,确保数据格式兼容 |
| 稀疏掩码 | 1. 优先采用结构化稀疏掩码 (如按注意力头、FFN通道划分) 2. 稀疏率设置需匹配昇腾NPU的稀疏计算加速要求(如4:1稀疏比) | 1. 非结构化稀疏在昇腾NPU上无加速效果,不建议使用 2. 稀疏掩码需固化到模型中,推理时避免动态计算掩码 | |
| MoE 专家网络 | 1. 专家剪枝 :移除低激活频率的冗余专家 2. 专家权重采用 W4A8 量化 ,门控网络保留FP16精度 3. 推理阶段优化专家选择策略,减少专家切换的开销 | 1. 专家剪枝需避免移除核心领域的专家,需统计各专家的激活频率 2. 昇腾NPU需开启多专家并行计算模式,提升MoE模型的推理速度 | |
| 模型输出核心组件 | Softmax 层 | 1. 采用 FP8 量化 ,避免INT8量化导致的概率分布畸变 2. 推理阶段可结合生成策略(如Top-K),优化概率计算流程 | 1. 该层对量化敏感度中等,INT4量化会导致生成文本重复、不通顺 2. 需基于昇腾推理框架优化Softmax算子,降低长序列下的计算延迟 |