什么是向量数据库 —— 零基础也能懂的核心概念

一、引言

大模型微调领域充斥着大量专业术语,对零基础初学者而言,这些术语如同 "天书"------LoRA、QLoRA、动量、梯度累积、过拟合...... 刚接触微调时,往往因看不懂术语而难以入门,甚至影响对技术原理的理解。但实际上,这些术语背后的逻辑并不复杂,每一个术语都对应着微调过程中的具体概念或操作。

掌握微调常见术语是入门的第一步,如同学习外语需先掌握基础词汇。正确理解这些术语,能帮助初学者快速读懂技术文档、理清微调逻辑、顺利开展实践操作。例如,明白 "LoRA" 是一种高效微调方法,就能理解为何它能减少显存占用;清楚 "过拟合" 的含义,就能针对性调整参数避免模型性能下降。本文将筛选出微调领域最常用的 50 个核心术语,按 "基础概念、模型相关、训练相关、优化相关、评估相关、安全相关" 六大类别,用通俗的语言解释其含义、应用场景与核心作用,让零基础初学者也能轻松掌握,为后续学习与实践打下坚实基础。

二、基础概念类术语:搭建微调知识框架

(一)预训练模型

指在大规模通用数据集上完成初始训练的大模型,具备通用的语言理解、文本生成等基础能力,如同一个 "博学但泛泛的学者"。微调的核心是在预训练模型的基础上,通过特定数据集调整参数,让模型适配具体任务。

(二)微调

指在预训练模型的基础上,使用目标任务数据集调整模型参数,使模型适配特定任务的过程。如同让 "博学的学者" 学习专业教材,成为某一领域的 "专家"。微调的核心目标是提升模型在特定任务上的性能,如情感分析、文本生成、客服对话等。

(三)任务

指模型需要完成的具体工作,是微调的核心目标。常见的微调任务包括分类任务、生成任务、对话任务、知识问答任务等。

(四)数据集

指用于微调模型的样本集合,每个样本包含 "输入信息" 与 "期望输出 / 标签",是模型学习的 "教材"。数据集的质量直接决定微调效果,需满足准确性、相关性、多样性等要求。

(五)样本

数据集中的单个数据单元,是模型学习的最小单位。例如,情感分析任务中的一条影评 + 对应的 "正面 / 负面" 标签,文本生成任务中的一条指令 + 对应的输出文本,都属于一个样本。

(六)标签

分类任务中用于标注样本类别的标识,是模型学习的 "答案"。标签通常为离散值,如情感分析中的 "正面""负面""中性",文本分类中的 "新闻""娱乐""科技" 等。

(七)Token

模型处理文本的基本单位,可理解为 "文本的最小积木"。Token 可以是单个字符、词语或子词,模型的输入长度通常以 Token 数衡量,如 "最大序列长度 512" 表示模型最多可处理 512 个 Token 的文本。

(八)上下文窗口

指模型能够同时处理的最大 Token 长度,如同模型的 "短期记忆容量"。上下文窗口越大,模型能理解的文本越长,适合长文本生成、多轮对话等场景。

三、模型相关类术语:理解模型结构与微调方法

(一)全参数微调

指调整预训练模型的所有参数,让模型全面适配目标任务。如同让 "学者" 重新学习所有知识,适配性强但算力消耗大,需要大量 GPU 显存支持,适合数据量充足、算力资源丰富的场景。

(二)LoRA

一种高效微调方法,通过在模型的 Transformer 层中插入低秩矩阵,仅训练这些低秩矩阵的参数,无需调整模型的全部参数。如同让 "学者" 仅学习专业领域的核心知识,参数量仅为全参数微调的 1%~5%,显存占用大幅降低,是消费级 GPU 微调大模型的首选方法。

(三)QLoRA

在 LoRA 基础上加入量化技术的高效微调方法,先将预训练模型量化为 4bit/8bit 精度,再插入低秩矩阵进行训练。如同让 "学者" 用更高效的方式学习核心知识,显存占用较 LoRA 进一步降低 30%~40%,可在 12GB 显存 GPU 上微调 70B 参数量的大模型。

(四)冻结层微调

指冻结预训练模型的底层网络参数,仅训练顶层网络或新增的分类头参数。底层网络负责提取通用特征,顶层网络负责适配具体任务,如同让 "学者" 保留通用知识,仅学习专业领域的应用技巧,能减少参数量与显存占用,避免过拟合。

(五)分类头

分类任务中新增在预训练模型顶层的网络结构,用于将模型提取的特征映射为具体的类别标签。如同 "学者" 学习专业知识后,用于输出答案的 "表达模块",微调时通常仅训练分类头参数,或结合顶层网络一起训练。

(六)Transformer 层

大模型的核心网络结构,负责提取文本特征、捕捉语义关系,预训练模型通常由数十层 Transformer 层堆叠而成。微调时的参数调整、LoRA 低秩矩阵插入,均是在 Transformer 层中进行。

(七)量化

通过降低模型参数的存储精度,减少模型的显存占用与计算开销的技术。如同将 "学者" 的知识压缩存储,在不影响核心能力的前提下,降低存储与使用成本。常用的量化精度有 8bit、4bit,分别对应将参数从 32bit 浮点数降至 8bit、4bit 整数。

(八)多模态模型

指能够处理文本、图像、音频、视频等多种数据类型的大模型,如 GPT-4V、Gemini 等。多模态模型的微调需使用多模态数据集,适配特定的多模态任务,如图文生成、视频摘要等。

四、训练相关类术语:理清微调流程核心环节

(一)训练轮次

指模型完整遍历训练集的次数。训练轮次过少,模型未充分学习数据集特征;轮次过多,模型可能过度拟合训练集。大模型微调的训练轮次通常为 3~20 轮,需结合验证集指标调整。

(二)批次大小

指每次训练时输入模型的样本数量。批次大小越大,训练效率越高,模型收敛越稳定,但对显存要求越高;批次大小越小,显存占用越低,但梯度震荡明显。大模型微调的批次大小需根据 GPU 显存调整,常见值为 4、8、16、32。

(三)梯度累积

当显存不足以支撑大批次时,通过累积多个小批次的梯度再更新参数,等价于增大批次大小。例如,批次大小为 4,梯度累积步数为 4,等价于批次大小为 16。

(四)学习率

优化器中最关键的参数,代表每次参数更新的步长。学习率过大,参数更新幅度过大,可能导致损失函数震荡不收敛;学习率过小,参数更新缓慢,训练效率低下。大模型微调的学习率通常为 1e-6~1e-4。

(五)损失函数

用于衡量模型预测结果与真实结果差异的函数,损失值越小,说明模型预测越准确。微调的核心目标是通过调整参数,最小化损失函数的值。不同任务对应不同的损失函数,如分类任务常用交叉熵损失,生成任务常用困惑度损失。

(六)前向传播

模型处理输入数据、生成预测结果的过程。如同 "学者" 接收问题、思考答案的过程,模型通过多层网络计算,将输入文本转换为预测输出。

(七)反向传播

根据损失函数的值,反向调整模型参数的过程。如同 "学者" 根据答题结果纠正错误、巩固知识的过程,是模型学习的核心环节。

(八)验证集

用于监控模型训练效果、调整参数的数据集,通常占总数据量的 10%~20%。训练过程中,每轮结束后用验证集评估模型性能,若验证集指标下降,可能是出现过拟合,需及时调整参数。

(九)测试集

用于最终评估模型泛化能力的数据集,通常占总数据量的 20%~30%。测试集与训练集、验证集无重叠,能客观反映模型在未见过的数据上的表现。

(十)早停策略

用于防止过拟合的策略,通过监控验证集指标,当指标连续一定轮次不提升时,停止训练并保存最优模型。例如,设置早停耐心值为 3,若验证集准确率连续 3 轮不提升,即停止训练。

五、优化相关类术语:提升微调效率与性能

(一)优化器

用于调整模型参数以最小化损失函数的工具,如同 "学者" 的 "学习方法"。常用的优化器有 AdamW、Adam、SGD 等,其中 AdamW 因兼顾收敛速度与稳定性,是大模型微调的首选。

(二)动量

优化器中的参数,用于加速收敛、减少损失函数震荡。如同 "学者" 学习时的 "惯性",能帮助模型更快地找到最优参数方向,常用值为 0.9~0.99。

(三)权重衰减

本质是 L2 正则化,通过对模型参数施加惩罚,减少参数绝对值,避免模型过度依赖部分特征,从而缓解过拟合。大模型微调中常用值为 1e-4~1e-2。

(四)学习率调度器

用于动态调整学习率的工具,使模型在训练初期快速收敛,后期精细调整参数。常用的调度器有余弦退火、线性衰减等,大模型微调中余弦退火调度器适配性更强。

(五)数据增强

通过对训练数据进行多样化处理,扩充数据集规模、提升模型泛化能力的技术。例如,文本数据增强可采用同义替换、语序调整、随机插入等方法,避免模型过度拟合单一数据模式。

(六)正则化

用于防止模型过拟合的技术总称,除权重衰减外,还包括 Dropout(随机丢弃部分网络节点)、L1 正则化(对参数绝对值求和施加惩罚)等,核心是通过引入 "噪声",让模型学习更通用的特征。

六、评估相关类术语:判断微调效果的核心指标

(一)准确率

分类任务中,预测正确的样本占总样本的比例,是最直观的评估指标,适合类别分布均衡的场景。

(二)精确率

分类任务中,预测为正类的样本中真实正类的比例,侧重解决 "误判" 问题,适合对误判敏感的场景(如垃圾邮件检测)。

(三)召回率

分类任务中,真实正类样本中被正确预测的比例,侧重解决 "漏判" 问题,适合对漏判敏感的场景(如故障检测)。

(四)F1 分数

精确率与召回率的调和平均数,综合两者优势,适合类别不均衡的分类任务。

(五)困惑度

生成任务中,衡量模型对文本概率预测能力的指标,值越低表示模型生成的文本越流畅、越符合语言逻辑。

(六)BLEU 分数

生成任务中,通过对比生成文本与参考文本的语义片段重叠度,评估生成内容准确性的指标,适合机器翻译、摘要生成等任务。

(七)泛化能力

模型在未见过的测试数据上的表现,泛化能力越强,说明模型适配性越好,不易出现过拟合。

(八)过拟合

模型在训练集上表现优秀,但在测试集上效果极差的现象,本质是模型 "死记硬背" 训练数据,未学到通用特征。

(九)欠拟合

模型在训练集与测试集上表现均不佳的现象,本质是模型未充分学习数据集特征,可能是训练轮次不足、学习率不当等原因导致。

七、安全相关类术语:保障微调与部署安全

(一)数据脱敏

对训练数据中的敏感信息进行处理,避免隐私泄露的技术,常用方法包括替换、删除、加密等。

(二)联邦学习

多个参与方在不共享原始数据的前提下,联合训练模型的技术,能从根本上保护数据隐私。

(三)差分隐私

通过在训练数据或模型参数中加入微小噪声,防止攻击者逆向推导原始数据的技术,兼顾隐私保护与模型性能。

(四)模型投毒

攻击者在训练数据中植入恶意样本,导致模型生成有害内容或做出错误决策的攻击方式。

(五)模型提取攻击

攻击者通过多次查询模型,逆向推导模型训练数据或参数的攻击方式,可能导致核心机密泄露。

(六)输出过滤

部署时对模型输出进行检测,拦截有害内容、敏感信息的技术,是抵御恶意查询攻击的关键手段。

八、总结与展望

掌握微调常见术语是入门大模型微调的基础,本文通过六大类别、50 个核心术语的通俗解析,帮助零基础初学者搭建起完整的知识框架,理解每个术语背后的逻辑与应用场景。这些术语并非孤立存在,而是相互关联、共同构成了微调技术的核心体系 ------ 例如,"LoRA""量化""梯度累积" 都是为了解决显存不足问题,"过拟合""早停策略""权重衰减" 则围绕模型泛化能力展开。

一提到 "大模型微调",很多人会默认它是一件高门槛的事。但实际上,真正拉开差距的并不是 "会不会写代码",而是有没有稳定、高性能的训练环境,以及足够灵活的模型与数据支持。像 LLaMA-Factory Online 这类平台,本质上是在把 GPU 资源、训练流程和模型生态做成 "开箱即用" 的能力,让用户可以把精力放在数据和思路本身,而不是反复折腾环境配置与术语理解。

未来,随着大模型技术的普及,微调术语体系将更加完善,同时也会出现更多简化工具与可视化平台,降低术语理解门槛。对于初学者而言,不必死记硬背所有术语,而是要结合实践场景理解其核心作用,在实操中逐步熟悉、灵活运用。掌握这些术语,将为后续深入学习微调技术、解决实际问题打下坚实基础,让大模型微调不再因 "术语壁垒" 而望而却步。

相关推荐
九.九10 小时前
ops-transformer:AI 处理器上的高性能 Transformer 算子库
人工智能·深度学习·transformer
春日见10 小时前
拉取与合并:如何让个人分支既包含你昨天的修改,也包含 develop 最新更新
大数据·人工智能·深度学习·elasticsearch·搜索引擎
恋猫de小郭10 小时前
AI 在提高你工作效率的同时,也一直在增加你的疲惫和焦虑
前端·人工智能·ai编程
deephub10 小时前
Agent Lightning:微软开源的框架无关 Agent 训练方案,LangChain/AutoGen 都能用
人工智能·microsoft·langchain·大语言模型·agent·强化学习
偷吃的耗子11 小时前
【CNN算法理解】:三、AlexNet 训练模块(附代码)
深度学习·算法·cnn
大模型RAG和Agent技术实践11 小时前
从零构建本地AI合同审查系统:架构设计与流式交互实战(完整源代码)
人工智能·交互·智能合同审核
老邋遢11 小时前
第三章-AI知识扫盲看这一篇就够了
人工智能
互联网江湖11 小时前
Seedance2.0炸场:长短视频们“修坝”十年,不如AI放水一天?
人工智能
PythonPioneer11 小时前
在AI技术迅猛发展的今天,传统职业该如何“踏浪前行”?
人工智能
冬奇Lab11 小时前
一天一个开源项目(第20篇):NanoBot - 轻量级AI Agent框架,极简高效的智能体构建工具
人工智能·开源·agent