1. 大模型中的"大模型"是什么?
**大模型(Large Model)**通常指参数量巨大(如数十亿至万亿级)、训练数据海量的深度学习模型,如GPT-3、PaLM等。其核心特点是:
- 规模大:参数量庞大,需分布式训练。
- 通用性强:通过海量数据预训练,可处理多种任务(如文本生成、翻译等)。
- 涌现能力:在规模达到阈值后,表现出小模型不具备的能力(如复杂推理)。
2. 量化(Quantization)是什么?
量化是通过降低模型参数的数值精度(如从32位浮点数→8位整数)来压缩模型、提升推理效率的技术。例如:
- 原始参数 :0.873(float32)→ 量化后:87(int8,缩放因子0.01)。
3. 大模型量化是什么?本质上是什么?
- 大模型量化:对大模型参数/激活值进行低精度表示,减少内存占用和计算开销。
- 本质 :通过牺牲少量精度换取效率提升,是计算资源与模型性能的权衡。
4. 大模型量化的过程
- 校准:用少量数据统计参数分布,确定缩放因子(Scale)和零点(Zero-point)。
- 映射:将浮点参数线性/非线性映射到低精度整数(如int8)。
- 微调(可选):量化感知训练(QAT)缓解精度损失。
5. 蒸馏(Distillation)是什么?
**知识蒸馏(Knowledge Distillation)**是将大模型(教师模型)的知识迁移到小模型(学生模型)的技术,核心是让学生模仿教师的输出(如logits或特征表示)。
6. 蒸馏过程
- 训练教师模型:在大数据集上训练一个高性能大模型。
- 软化输出:教师模型生成软标签(Soft Targets,含类别概率分布)。
- 学生训练:学生模型同时学习真实标签和教师的软标签(损失函数结合两者)。
7. 蒸馏本质上是什么?
本质 :通过教师模型的输出分布(含类别间关系等暗知识)指导学生模型,实现知识压缩 和泛化能力迁移。
8. 大模型剪枝(Pruning)是什么?
剪枝是通过移除模型中不重要的参数(如权重接近0的连接)来减少模型规模的技术,分为:
- 结构化剪枝:移除整个神经元/通道。
- 非结构化剪枝:移除单个权重。
9. 剪枝过程
- 训练原模型:正常训练大模型至收敛。
- 评估重要性:根据权重绝对值或梯度筛选不重要参数。
- 剪枝与微调:移除参数后微调模型恢复性能(迭代进行)。
10. 剪枝的本质
本质 :通过稀疏化模型 去除冗余参数,实现模型轻量化,属于模型结构优化。
11. 其他大模型微调方式
- Adapter Tuning:在模型中插入小型适配层,仅训练这些层。
- LoRA(Low-Rank Adaptation):通过低秩矩阵分解微调权重增量。
- Prefix Tuning:在输入前添加可学习的前缀向量。
- Prompt Tuning:仅优化提示(Prompt)的嵌入表示。
- BitFit:仅微调模型中的偏置(Bias)参数。
总结
技术 | 目标 | 核心方法 | 本质 |
---|---|---|---|
量化 | 减少计算/存储开销 | 低精度表示参数 | 精度-效率权衡 |
蒸馏 | 压缩模型 | 教师模型指导学生模型 | 知识迁移 |
剪枝 | 减少参数数量 | 移除不重要参数 | 稀疏化模型 |
微调技术 | 高效适应下游任务 | 参数高效调整(如Adapter/LoRA) | 任务特定适配 |