大模型微调定义与分类

《大模型应用开发 鲍亮,李倩 清华大学出版社》【摘要 书评 试读】- 京东图书

这本书用来打基础,是极好的。本节从国内外综述性论文文献入手,对微调这一概念进行介绍分析[1,2],揭示其本质含义,然后归纳出微调的三大类型[3]。

5.1.1 微调定义

微调作为迁移学习的典型范式,其理论概念可追溯至2018年前后[4],但在Devlin J等人里程碑式的工作[5]发表后成为主流术语。在该研究中,Devlin J等人将BERT模型首先使用预训练参数初始化,然后利用下游任务的标注数据对所有参数进行监督式更新。每个下游任务都有单独的微调模型,它们使用相同的预训练参数进行初始化。得益于其参数高效迁移的特性,微调相较于预训练展现出显著优势:所需的计算资源大大降低。该论文报告的所有下游任务结果,均可使用单个Cloud TPU在1小时内,或在GPU上运行数小时完成复现,且均基于相同的预训练模型基座。

从认知科学视角看,微调本质是模型的"认知重塑"过程:预训练阶段构建的通用知识图谱(如语言表征空间)在目标任务驱动下,通过参数优化实现神经表征的定向重构。这种重构遵循"最小干预原则"------通过梯度更新优先调整与任务相关的神经元连接权重,而保留基础认知能力。微调的核心原理在于:通过使用特定任务或领域的标注数据对预训练模型进行目标导向的针对性调整,使之在保留通用能力的基础上,深入适应特定任务或领域的独有特征与复杂度,从而显著提升模型在该目标上的性能表现。

5.1.2 微调分类

本节以Parthasarathy V B等人[3]和Ovadia等人[10]对大模型微调领域方法类别的总结为基础,按照训练方式划分为无监督微调、监督微调和强化学习(Reinforcement Learning, RL)微调三类,并分别对这3大类型进行分析与介绍。

1. 无监督微调

无监督微调,这种方法不需要标注数据,而是通过在目标领域的大量无标注文本语料(如特定行业的文档、技术报告、社群对话等)上继续预训练,促使模型隐式学习目标领域的语言风格、术语分布和知识结构,从而实现领域知识的深度迁移。这种方法对于法律或医学等新兴领域很有用,但对于分类或摘要等特定任务而言,其精确度较低。

一种常见的无监督微调技术被称为持续预训练或非结构化微调。该方法将预训练阶段与微调过程无缝衔接,直接从原始大模型的预训练检查点恢复训练流程,以因果自回归的方式对其进行训练,即预测下一个token。与初始预训练相比,一个主要区别在于学习率。为避免灾难性遗忘(Catastrophic Forgetting,即新知识覆盖旧知识),需采用显著降低的学习率,通常为预训练学习率的1/10至1/50。该策略由Kirkpatrick等人[5]在Overcoming catastrophic forgetting in neural networks中首次系统验证,其核心在于平衡新领域知识迁移与原始泛化能力保留的权衡。

2. 监督微调(SFT)

监督微调(SFT)需要为大模型提供针对目标任务定制的带标签数据,核心原理是在特定任务的标注数据集上进行端到端训练。模型会接收输入(如文本片段)、预测标签(如情感类别、实体标签),并通过损失函数监督更新所有权重。这实质上是目标任务驱动的判别式学习。例如,在商业环境中对大模型进行文本分类微调时,需要使用带有类别标签的文本片段数据集。虽然这种方法有效,但它需要大量的带标签数据,而获取这些数据可能成本高昂且耗时。

最常见的监督微调方法之一是指令微调 (Wang Y等人[6],2022; Mishra等人[7],2021; Ouyang等人[8],2022; Taori等人[9],2023),它已成为提升模型性能的最有效方法之一。指令微调通过将自然语言任务描述作为输入、期望行为样本作为输出的监督训练,显著提升大模型的任务泛化能力。该方法已被GPT-4、Claude等前沿模型列为预训练后的核心优化步骤,实验研究表明其能有效激发零样本推理能力------例如FLAN-T5经多任务指令微调后在MMLU基准零样本准确率提升19.3%(Ouyang等人[8], 2022),其机理在于模型通过暴露于分类、生成、推理等异构指令,学习抽象的任务模式映射规则而非机械记忆样本(Chung等人[12], 2022)。

事实证明,指令微调在提升模型整体质量方面非常有效,尤其突出了其零样本和推理能力。然而,尽管指令微调具有这些优势,它还是存在根本性局限:它仅能优化预训练阶段已存在知识的调度能力,无法注入预训练语料外的新知识(Ouyang等人[11],2022年; Chung等人[12],2022年; Mitra等人[13],2023年; Chia等人[14],2023年; Zhou等人[15],2023年)。当涉及时效性任务时,如要求基于2021年语料训练的模型回答2023年事件,模型表现仍受限于原始知识边界;更严重的是,该方法会放大幻觉风险------当指令超出训练分布时,模型倾向于生成事实错误的合理性虚构响应。参数空间分析进一步揭示其本质是知识-能力解耦现象:性能提升源于指令执行机制的强化,而非知识库容量的扩展。因此,单靠指令微调无法突破预训练知识约束,需结合检索增强生成(RAG)或继续预训练等技术实现知识更新。

3. 强化学习微调(RFT)

强化学习微调与监督微调的核心差异在于采用奖励机制而非直接监督优化。核心原理是将任务目标转化为动态奖励信号,通过模型在环境中的交互行为与结果反馈,驱动策略优化以实现长期累积奖励最大化。其本质是奖励驱动的策略学习:模型通过试错探索生成多样化响应,由奖励函数(基于规则或人类偏好)评估响应质量并生成强化信号,最终引导模型学习更符合目标的高阶推理路径与行为策略。适用于答案客观的领域,如法律、医疗、金融等。

一些比较典型的例子包括:基于人类反馈的强化学习(RLHF)通过人类对输出排序构建偏好数据集 (OpenAI[16],2023;Touvron等人[17],2023);直接偏好优化(DPO)省去奖励模型训练环节,直接优化偏好数据 (Rafailov等人[18],2023);近端策略优化(PPO)则以策略更新约束平衡探索效率与稳定性 (Schulman等人[19],2017;Tunstall等人[20],2023)。

这些技术已被证实十分有效,尤其是与指令调优结合使用时------指令微调赋予任务理解能力,强化学习微调则优化行为策略,共同塑造任务执行的高阶能力。然而,与指令调优类似,这些方法关注的是响应的整体质量及其预期行为,而不一定关注其知识广度。当任务涉及预训练未涵盖的知识时,强化学习微调虽可提升回答流畅度,却无法修正事实性谬误。参数空间研究表明,其优化过程仅改变决策路径权重分布,而不新增知识神经元连接,这从根本上限制了在专业知识敏感场景的可靠性。

相关推荐
山烛5 小时前
一文读懂YOLOv4:目标检测领域的技术融合与性能突破
人工智能·yolo·目标检测·计算机视觉·yolov4
大千AI助手5 小时前
独热编码:分类数据处理的基石技术
人工智能·机器学习·分类·数据挖掘·特征工程·one-hot·独热编码
钱彬 (Qian Bin)6 小时前
项目实践4—全球证件智能识别系统(Qt客户端开发+FastAPI后端人工智能服务开发)
人工智能·qt·fastapi
钱彬 (Qian Bin)6 小时前
项目实践3—全球证件智能识别系统(Qt客户端开发+FastAPI后端人工智能服务开发)
人工智能·qt·fastapi
Microsoft Word6 小时前
向量数据库与RAG
数据库·人工智能·向量数据库·rag
2401_836900337 小时前
YOLOv5:目标检测的实用派王者
人工智能·计算机视觉·目标跟踪·yolov5
没有梦想的咸鱼185-1037-16637 小时前
AI Agent结合机器学习与深度学习在全球气候变化驱动因素预测中的应用
人工智能·python·深度学习·机器学习·chatgpt·数据分析
在云上(oncloudai)7 小时前
AWS Data Exchange:概述、功能与安全性
人工智能·云计算·aws
周杰伦_Jay7 小时前
【MCP开发部署流程表格分析】MCP架构解析、开发流程、部署方案、安全性分析
人工智能·深度学习·opencv·机器学习·架构·transformer