【极速版 -- 大模型入门到进阶】LORA:大模型轻量级微调

文章目录

    • [🌊 有没有低成本的方法微调大模型?](#🌊 有没有低成本的方法微调大模型?)
    • [🌊 LoRA 的核心思想](#🌊 LoRA 的核心思想)
    • [🌊 LoRA 的初始化和 r r r 的值设定](#🌊 LoRA 的初始化和 r r r 的值设定)
    • [🌊 LoRA 实战:LoraConfig参数详解](#🌊 LoRA 实战:LoraConfig参数详解)

论文指路:LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

🌊 有没有低成本的方法微调大模型?

  • 2021年微软提出 LORA :LOW-RANK ADAPTATION 低秩适配
    • 什么是秩?】一个矩阵的秩是指矩阵中线性独立的行或列的最大数目;也就是说 一个矩阵的秩越大,它包含的有效信息就越多

🌊 LoRA 的核心思想

  • LoRA通过优化在适应过程中 FC 层权重变化 ( Δ w ∈ R m × n \Delta w \in \mathbb{R}^{m\times n} Δw∈Rm×n) 的秩分解矩阵 ( A ∈ R m × r × B ∈ R r × n A \in \mathbb{R}^{m\times r} \times B\in \mathbb{R}^{r\times n} A∈Rm×r×B∈Rr×n),来间接调整神经网络中部分层的权重 ( w w w) 。不修改预先训练好的权重,而是通过引入一个低秩的矩阵来实现对这些层的适应调整
    • r < < min ⁡ ( m , n ) r << \min(m,n) r<<min(m,n)
  • 用更小的参数空间存储 模型参数变化量 Δ w \Delta w Δw

    • Δ w \Delta w Δw: 模型参数变化量,也就是对原参数 w w w 变化 Δ w \Delta w Δw 可以适配新任务。LoRA 用 A 和 B 计算获得模型参数变化量 Δ w \Delta w Δw,叠加到原参数 w w w 上

🌊 LoRA 的初始化和 r r r 的值设定

  • 用随机高斯分布初始化 A A A ,用 0 矩阵初始化 B B B, 保证训练的开始此旁路矩阵依然是 0 矩阵
  • 对于一般的任务, r = 1 , 2 , 4 , . . . r = 1,2,4, ... r=1,2,4,... 就足够了。而一些领域差距比较大的任务可能需要更大的 r r r

🌊 LoRA 实战:LoraConfig参数详解

目前 LORA 已经被 HuggingFace 集成在了 PEFT(Parameter-Efficient Fine-Tuning) 代码库里

所以,使用也非常简单

python3 复制代码
from peft import get_peft_config, get_peft_model, LoraConfig, TaskType

# preModel = ....from_pretrained(".. bert-base-uncased ..")  # 加载你的预训练模型

peft_config = LoraConfig(
    r=4,  # LoRA 维数
    lora_alpha=8,  # ΔW 按 α / r 缩放
	target_modules=["", "", ...],  # 对哪些模块进行微调
    lora_dropout=0.1  # 默认值为 0
)
model = get_peft_model(preModel, peft_config)  # 预训练模型 -> 加好了 LoRA 之后的模型

参考资料: 【LoRA&CN全解析】, 【知乎高赞-大模型轻量级微调】

相关推荐
zhangfeng11333 小时前
国家超算中心 scnet.cn 跨用户文件分享流程总结 多个用户之间 文件共享 不需要反复下载上传
人工智能·语言模型·大模型
smartcat20109 小时前
2026LLM新趋势--推理能力跃迁
语言模型
码农小旋风10 小时前
2026 终端 AI 编程工具深度横评:Claude Code、Codex CLI、Gemini CLI、Aider 怎么选
人工智能·gpt·claude
70asunflower11 小时前
2026年前沿人工智能语言模型评估:基于任务驱动的最佳模型选择路径
人工智能·语言模型·自然语言处理
AdMergeX13 小时前
(4.21-4.28)出海行业热点|跨境电商查账征收细则落地;OpenAI发布GPT-5.5;TikTok Shop筹备波兰、荷兰、比利时新站点
gpt
播播资源15 小时前
GPT-5.5 模型功能深度解析:从模型介绍、核心特点到应用场景全景分析 如何快速接入使用
人工智能·gpt
流年似水~15 小时前
脚本策划:拍之前先想清楚要剪什么
人工智能·程序人生·语言模型·ai编程
smartcat201017 小时前
2026LLM新趋势--多模态
语言模型
卷Java17 小时前
GPT-Image 2隐藏玩法:一张产品图批量生成8种不同风格海报
gpt
我鑫如一18 小时前
大模型中转哪个技术供应商靠谱
语言模型