什么是向量数据库 —— 零基础也能懂的核心概念

一、引言

大模型微调领域充斥着大量专业术语，对零基础初学者而言，这些术语如同 "天书"------LoRA、QLoRA、动量、梯度累积、过拟合...... 刚接触微调时，往往因看不懂术语而难以入门，甚至影响对技术原理的理解。但实际上，这些术语背后的逻辑并不复杂，每一个术语都对应着微调过程中的具体概念或操作。

掌握微调常见术语是入门的第一步，如同学习外语需先掌握基础词汇。正确理解这些术语，能帮助初学者快速读懂技术文档、理清微调逻辑、顺利开展实践操作。例如，明白 "LoRA" 是一种高效微调方法，就能理解为何它能减少显存占用；清楚 "过拟合" 的含义，就能针对性调整参数避免模型性能下降。本文将筛选出微调领域最常用的 50 个核心术语，按 "基础概念、模型相关、训练相关、优化相关、评估相关、安全相关" 六大类别，用通俗的语言解释其含义、应用场景与核心作用，让零基础初学者也能轻松掌握，为后续学习与实践打下坚实基础。

二、基础概念类术语：搭建微调知识框架

（一）预训练模型

指在大规模通用数据集上完成初始训练的大模型，具备通用的语言理解、文本生成等基础能力，如同一个 "博学但泛泛的学者"。微调的核心是在预训练模型的基础上，通过特定数据集调整参数，让模型适配具体任务。

（二）微调

指在预训练模型的基础上，使用目标任务数据集调整模型参数，使模型适配特定任务的过程。如同让 "博学的学者" 学习专业教材，成为某一领域的 "专家"。微调的核心目标是提升模型在特定任务上的性能，如情感分析、文本生成、客服对话等。

（三）任务

指模型需要完成的具体工作，是微调的核心目标。常见的微调任务包括分类任务、生成任务、对话任务、知识问答任务等。

（四）数据集

指用于微调模型的样本集合，每个样本包含 "输入信息" 与 "期望输出 / 标签"，是模型学习的 "教材"。数据集的质量直接决定微调效果，需满足准确性、相关性、多样性等要求。

（五）样本

数据集中的单个数据单元，是模型学习的最小单位。例如，情感分析任务中的一条影评 + 对应的 "正面 / 负面" 标签，文本生成任务中的一条指令 + 对应的输出文本，都属于一个样本。

（六）标签

分类任务中用于标注样本类别的标识，是模型学习的 "答案"。标签通常为离散值，如情感分析中的 "正面""负面""中性"，文本分类中的 "新闻""娱乐""科技" 等。

（七）Token

模型处理文本的基本单位，可理解为 "文本的最小积木"。Token 可以是单个字符、词语或子词，模型的输入长度通常以 Token 数衡量，如 "最大序列长度 512" 表示模型最多可处理 512 个 Token 的文本。

（八）上下文窗口

指模型能够同时处理的最大 Token 长度，如同模型的 "短期记忆容量"。上下文窗口越大，模型能理解的文本越长，适合长文本生成、多轮对话等场景。

三、模型相关类术语：理解模型结构与微调方法

（一）全参数微调

指调整预训练模型的所有参数，让模型全面适配目标任务。如同让 "学者" 重新学习所有知识，适配性强但算力消耗大，需要大量 GPU 显存支持，适合数据量充足、算力资源丰富的场景。

（二）LoRA

一种高效微调方法，通过在模型的 Transformer 层中插入低秩矩阵，仅训练这些低秩矩阵的参数，无需调整模型的全部参数。如同让 "学者" 仅学习专业领域的核心知识，参数量仅为全参数微调的 1%~5%，显存占用大幅降低，是消费级 GPU 微调大模型的首选方法。

（三）QLoRA

在 LoRA 基础上加入量化技术的高效微调方法，先将预训练模型量化为 4bit/8bit 精度，再插入低秩矩阵进行训练。如同让 "学者" 用更高效的方式学习核心知识，显存占用较 LoRA 进一步降低 30%~40%，可在 12GB 显存 GPU 上微调 70B 参数量的大模型。

（四）冻结层微调

指冻结预训练模型的底层网络参数，仅训练顶层网络或新增的分类头参数。底层网络负责提取通用特征，顶层网络负责适配具体任务，如同让 "学者" 保留通用知识，仅学习专业领域的应用技巧，能减少参数量与显存占用，避免过拟合。

（五）分类头

分类任务中新增在预训练模型顶层的网络结构，用于将模型提取的特征映射为具体的类别标签。如同 "学者" 学习专业知识后，用于输出答案的 "表达模块"，微调时通常仅训练分类头参数，或结合顶层网络一起训练。

（六）Transformer 层

大模型的核心网络结构，负责提取文本特征、捕捉语义关系，预训练模型通常由数十层 Transformer 层堆叠而成。微调时的参数调整、LoRA 低秩矩阵插入，均是在 Transformer 层中进行。

（七）量化

通过降低模型参数的存储精度，减少模型的显存占用与计算开销的技术。如同将 "学者" 的知识压缩存储，在不影响核心能力的前提下，降低存储与使用成本。常用的量化精度有 8bit、4bit，分别对应将参数从 32bit 浮点数降至 8bit、4bit 整数。

（八）多模态模型

指能够处理文本、图像、音频、视频等多种数据类型的大模型，如 GPT-4V、Gemini 等。多模态模型的微调需使用多模态数据集，适配特定的多模态任务，如图文生成、视频摘要等。

四、训练相关类术语：理清微调流程核心环节

（一）训练轮次

指模型完整遍历训练集的次数。训练轮次过少，模型未充分学习数据集特征；轮次过多，模型可能过度拟合训练集。大模型微调的训练轮次通常为 3~20 轮，需结合验证集指标调整。

（二）批次大小

指每次训练时输入模型的样本数量。批次大小越大，训练效率越高，模型收敛越稳定，但对显存要求越高；批次大小越小，显存占用越低，但梯度震荡明显。大模型微调的批次大小需根据 GPU 显存调整，常见值为 4、8、16、32。

（三）梯度累积

当显存不足以支撑大批次时，通过累积多个小批次的梯度再更新参数，等价于增大批次大小。例如，批次大小为 4，梯度累积步数为 4，等价于批次大小为 16。

（四）学习率

优化器中最关键的参数，代表每次参数更新的步长。学习率过大，参数更新幅度过大，可能导致损失函数震荡不收敛；学习率过小，参数更新缓慢，训练效率低下。大模型微调的学习率通常为 1e-6~1e-4。

（五）损失函数

用于衡量模型预测结果与真实结果差异的函数，损失值越小，说明模型预测越准确。微调的核心目标是通过调整参数，最小化损失函数的值。不同任务对应不同的损失函数，如分类任务常用交叉熵损失，生成任务常用困惑度损失。

（六）前向传播

模型处理输入数据、生成预测结果的过程。如同 "学者" 接收问题、思考答案的过程，模型通过多层网络计算，将输入文本转换为预测输出。

（七）反向传播

根据损失函数的值，反向调整模型参数的过程。如同 "学者" 根据答题结果纠正错误、巩固知识的过程，是模型学习的核心环节。

（八）验证集

用于监控模型训练效果、调整参数的数据集，通常占总数据量的 10%~20%。训练过程中，每轮结束后用验证集评估模型性能，若验证集指标下降，可能是出现过拟合，需及时调整参数。

（九）测试集

用于最终评估模型泛化能力的数据集，通常占总数据量的 20%~30%。测试集与训练集、验证集无重叠，能客观反映模型在未见过的数据上的表现。

（十）早停策略

用于防止过拟合的策略，通过监控验证集指标，当指标连续一定轮次不提升时，停止训练并保存最优模型。例如，设置早停耐心值为 3，若验证集准确率连续 3 轮不提升，即停止训练。

五、优化相关类术语：提升微调效率与性能

（一）优化器

用于调整模型参数以最小化损失函数的工具，如同 "学者" 的 "学习方法"。常用的优化器有 AdamW、Adam、SGD 等，其中 AdamW 因兼顾收敛速度与稳定性，是大模型微调的首选。

（二）动量

优化器中的参数，用于加速收敛、减少损失函数震荡。如同 "学者" 学习时的 "惯性"，能帮助模型更快地找到最优参数方向，常用值为 0.9~0.99。

（三）权重衰减

本质是 L2 正则化，通过对模型参数施加惩罚，减少参数绝对值，避免模型过度依赖部分特征，从而缓解过拟合。大模型微调中常用值为 1e-4~1e-2。

（四）学习率调度器

用于动态调整学习率的工具，使模型在训练初期快速收敛，后期精细调整参数。常用的调度器有余弦退火、线性衰减等，大模型微调中余弦退火调度器适配性更强。

（五）数据增强

通过对训练数据进行多样化处理，扩充数据集规模、提升模型泛化能力的技术。例如，文本数据增强可采用同义替换、语序调整、随机插入等方法，避免模型过度拟合单一数据模式。

（六）正则化

用于防止模型过拟合的技术总称，除权重衰减外，还包括 Dropout（随机丢弃部分网络节点）、L1 正则化（对参数绝对值求和施加惩罚）等，核心是通过引入 "噪声"，让模型学习更通用的特征。

六、评估相关类术语：判断微调效果的核心指标

（一）准确率

分类任务中，预测正确的样本占总样本的比例，是最直观的评估指标，适合类别分布均衡的场景。

（二）精确率

分类任务中，预测为正类的样本中真实正类的比例，侧重解决 "误判" 问题，适合对误判敏感的场景（如垃圾邮件检测）。

（三）召回率

分类任务中，真实正类样本中被正确预测的比例，侧重解决 "漏判" 问题，适合对漏判敏感的场景（如故障检测）。

（四）F1 分数

精确率与召回率的调和平均数，综合两者优势，适合类别不均衡的分类任务。

（五）困惑度

生成任务中，衡量模型对文本概率预测能力的指标，值越低表示模型生成的文本越流畅、越符合语言逻辑。

（六）BLEU 分数

生成任务中，通过对比生成文本与参考文本的语义片段重叠度，评估生成内容准确性的指标，适合机器翻译、摘要生成等任务。

（七）泛化能力

模型在未见过的测试数据上的表现，泛化能力越强，说明模型适配性越好，不易出现过拟合。

（八）过拟合

模型在训练集上表现优秀，但在测试集上效果极差的现象，本质是模型 "死记硬背" 训练数据，未学到通用特征。

（九）欠拟合

模型在训练集与测试集上表现均不佳的现象，本质是模型未充分学习数据集特征，可能是训练轮次不足、学习率不当等原因导致。

七、安全相关类术语：保障微调与部署安全

（一）数据脱敏

对训练数据中的敏感信息进行处理，避免隐私泄露的技术，常用方法包括替换、删除、加密等。

（二）联邦学习

多个参与方在不共享原始数据的前提下，联合训练模型的技术，能从根本上保护数据隐私。

（三）差分隐私

通过在训练数据或模型参数中加入微小噪声，防止攻击者逆向推导原始数据的技术，兼顾隐私保护与模型性能。

（四）模型投毒

攻击者在训练数据中植入恶意样本，导致模型生成有害内容或做出错误决策的攻击方式。

（五）模型提取攻击

攻击者通过多次查询模型，逆向推导模型训练数据或参数的攻击方式，可能导致核心机密泄露。

（六）输出过滤

部署时对模型输出进行检测，拦截有害内容、敏感信息的技术，是抵御恶意查询攻击的关键手段。

八、总结与展望

掌握微调常见术语是入门大模型微调的基础，本文通过六大类别、50 个核心术语的通俗解析，帮助零基础初学者搭建起完整的知识框架，理解每个术语背后的逻辑与应用场景。这些术语并非孤立存在，而是相互关联、共同构成了微调技术的核心体系 ------ 例如，"LoRA""量化""梯度累积" 都是为了解决显存不足问题，"过拟合""早停策略""权重衰减" 则围绕模型泛化能力展开。

一提到 "大模型微调"，很多人会默认它是一件高门槛的事。但实际上，真正拉开差距的并不是 "会不会写代码"，而是有没有稳定、高性能的训练环境，以及足够灵活的模型与数据支持。像 LLaMA-Factory Online 这类平台，本质上是在把 GPU 资源、训练流程和模型生态做成 "开箱即用" 的能力，让用户可以把精力放在数据和思路本身，而不是反复折腾环境配置与术语理解。

未来，随着大模型技术的普及，微调术语体系将更加完善，同时也会出现更多简化工具与可视化平台，降低术语理解门槛。对于初学者而言，不必死记硬背所有术语，而是要结合实践场景理解其核心作用，在实操中逐步熟悉、灵活运用。掌握这些术语，将为后续深入学习微调技术、解决实际问题打下坚实基础，让大模型微调不再因 "术语壁垒" 而望而却步。