LIFT:基于低秩引导的稀疏微调

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
在大语言模型(LLM)微调领域,我们常常面临一个难题:全参数微调 效果虽好但计算成本高昂,而参数高效微调 (如LoRA)虽节省资源却可能在复杂任务上表现不佳。你是否想过,是否存在一种方法能兼具二者的优点?答案是肯定的,这就是我们要深入探讨的 LIFT(Low-rank guided Sparse Fine-Tuning) 方法。它巧妙地通过低秩分解来识别模型中那些对任务至关重要的"主要权重"(Principal Weights),然后仅对这些关键参数进行精细调整,从而在保证性能的同时大幅提升效率。

1 算法概述

LIFT(Low-rank guided Sparse Fine-Tuning)是一种新颖的参数高效微调方法,它通过低秩近似引导的稀疏微调 ,在大型语言模型上实现了卓越的性能与效率平衡。该方法的核心思想是:预训练语言模型中只有一小部分参数对下游任务的适应至关重要,识别并优化这些关键参数可以同时达到全参数微调的性能和参数高效微调的效率。

基本理念 :传统的稀疏微调方法通常基于权重幅度选择参数,但这种方法在大语言模型中效果有限。LIFT的创新在于发现:经过低秩近似后保留的最大幅度权重(主要权重)实际上编码了模型最关键的知识和能力。通过只优化这些主要权重,LIFT能够以极低的参数更新率(约5%)在多种推理任务上超越全参数微调。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

2 背景与动机

2.1 现有微调方法的问题

目前大语言模型的微调主要面临两个关键挑战:

  • 全参数微调(Full Fine-Tuning):计算成本高昂,且在有限训练数据上容易过拟合,甚至出现灾难性遗忘问题。想象一下,为了学习一项新技能而需要重新训练整个大脑,这显然是低效的!🧠

  • 参数高效微调方法(如LoRA) :虽然大幅减少了可训练参数,但在复杂推理任务上的表现往往不如全参数微调。特别是,LoRA使用低秩适配器,其更新矩阵的秩有限,可能限制了模型获取新知识的能力

2.2 稀疏微调的潜力与挑战

稀疏微调作为一种只更新模型参数子集的方法,在理论上具有明显优势:更少的计算资源需求和更好的知识保留。然而,在大语言模型时代,传统的稀疏微调方法明显落后于低秩微调方法,主要因为:

  1. 难以识别真正对推理至关重要的参数
  2. 使用不规则稀疏模式时,其内存开销与全参数微调相同

3 算法核心原理

3.1 主要权重的发现

LIFT建立在一个反直觉的发现上:最基础的稀疏微调基线方法------基于权重大小的微调,在应用低秩近似后会变得异常有效。研究人员将低秩近似后保留最大幅值的权重称为"主要权重"(Principal Weights)。

这些主要权重的重要性通过一个精巧的实验得到验证:当向LIFT选择的参数添加随机噪声时,模型在多个任务上的性能急剧下降;而通过其他选择标准选出的参数受到扰动后,模型性能几乎不受影响。这表明LIFT选择的主要权重确实捕捉到了模型中最关键的知识和能力。

3.2 LIFT工作流程

LIFT方法包含三个核心步骤:

  1. 低秩近似:对模型的所有可训练权重矩阵进行低秩近似,过滤掉可能被视为"噪音"的高阶成分。

  2. 主要权重识别:在低秩近似的权重矩阵中,选择幅值最大的k个参数位置,生成二进制掩码。

  3. 稀疏微调:只更新原始权重矩阵中那些对应于掩码位置为1的参数。

值得注意的是,LIFT在训练过程中会定期更新这个掩码,因为随着模型的微调,低秩近似及其最大成分也会发生变化。

4 实验分析与性能评估

4.1 多任务性能表现

研究团队在多种推理任务上对LIFT进行了全面评估,结果令人印象深刻:

  • 常识推理任务:LIFT在8个基准测试中的平均准确率达到了84.66%(使用LLaMA-2-7B)和87.88%(使用LLaMA-3-8B),分别比全参数微调高出1.13%和1.24%。

  • 算术推理任务:使用LLaMA-3-8B模型时,LIFT在7个算术任务上的平均准确率达到81.78%,比全参数微调高1.60%。特别是在GSM8K和SVAMP等难度较高的任务上,LIFT的表现尤为突出。

  • 自然语言理解任务:LIFT使用DeBERTa-v3模型在GLUE基准上达到了89.24%的平均准确率,超越全参数微调0.88%。

  • 代码生成任务:LIFT在Humaneval数据集上的Pass@1和Pass@10指标分别达到16.46%和31.10%,同样超越了全参数微调和其他微调方法。

4.2 效率优势

LIFT在计算效率方面展现出显著优势:

  • 内存使用:LIFT比全参数微调有显著更好的内存效率,与LoRA相当。具体来说,对于LLaMA-2-7B模型,LIFT将内存需求从全参数微调的27GB降低到只需1.3GB(不到5%)。

  • 参数效率:LIFT只需更新模型中约5%的主要权重,就能在推理任务上持续超越全参数微调。

4.3 知识保留能力

LIFT在平衡学习新知识与保留原有知识方面表现出色。在一个巧妙的实验中,研究团队评估了模型在目标领域(算术推理)学习新知识的同时,对源领域(常识推理)知识的保留程度。结果显示,LIFT不仅在目标领域显著超越了全参数微调和LoRA,在源领域的表现也大幅优于这两种方法

5 应用指南

5.1 适用场景

LIFT特别适用于以下场景:

  • 资源受限环境:当计算资源或内存有限时,LIFT提供了接近全参数微调的性能。

  • 多任务学习:LIFT在需要同时保持预训练知识和学习新任务的情况下表现优异。

  • 复杂推理任务:对于数学推理、代码生成等需要较强推理能力的任务,LIFT consistently outperforms其他微调方法。

5.2 超参数选择

基于实验经验,以下超参数配置通常能取得良好效果:

  • 稀疏率:5%左右通常是一个良好的起点
  • 掩码更新频率:每100-500步更新一次掩码
  • 低秩近似比:秩比约为0.1

5.3 与其他方法对比

方法 参数效率 推理性能 内存效率 知识保留
全参数微调 中等
LoRA 中等
LIFT 非常高

6 原始论文与资源

6.1 核心论文

LIFT方法的原始论文信息如下:

7 总结

LIFT方法代表了大型语言模型微调的一个重要进展,它通过低秩引导的稀疏微调,巧妙地解决了全参数微调和现有参数高效微调方法面临的挑战。🛠️

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

相关推荐
Serverless 社区2 小时前
算力成本降低 33%,与光同尘用 Serverless AI 赋能影视商业内容生产
人工智能·云原生·serverless
L.EscaRC2 小时前
【AI基础篇】Transformer架构深度解析与前沿应用
人工智能·深度学习·transformer
王中阳Go2 小时前
3 - RAG 知识库基础 - AI 超级智能体项目教程
人工智能·agent
司马阅-SmartRead2 小时前
司马阅与数之境科技达成生态战略合作,释放1+1>2的产业赋能价值
人工智能
化作星辰3 小时前
四层神经网络案例(含反向传播)
人工智能·深度学习·神经网络
m0_650108243 小时前
【论文精读】AVID:基于扩散模型的任意长度视频修复
人工智能·扩散模型·论文精读·视频修复·时序一致性·任意时长·结构引导
TYUT_xiaoming3 小时前
ubuntu22.04 GPU环境安装mindspore
linux·人工智能·深度学习
海边夕阳20063 小时前
【每天一个AI小知识】:什么是自监督学习?
人工智能·经验分享·学习
逐云者1233 小时前
使用 FastAPI 构建大模型应用的系统教程(工程化实战指南)
大模型·fastapi·router·分层架构·算法工程·算法服务