【大模型lora微调】关于推理时如何使用 LoRA Adapter

假设你有两部分:

  • 一个是原始大模型(base model)
  • 一个是保存的 LoRA Adapter(adapter_config.json + adapter_model.bin)

不合并的情况下推理方法

你可以用 peft 的方式加载 LoRA Adapter,推理时这样写:

python 复制代码
from transformers import AutoModel, AutoTokenizer
from peft import PeftModel

# 1. 加载原始大模型
base_model = AutoModel.from_pretrained(
    "原始模型路径",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(
    "原始模型路径",
    trust_remote_code=True
)

# 2. 加载 LoRA Adapter
model = PeftModel.from_pretrained(
    base_model,
    "lora_adapter保存路径"
)

# 3. 推理
inputs = tokenizer("你的输入", return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0]))
  • "原始模型路径":假设就是你原始 ChatGLM-3 6B 的本地路径
  • "lora_adapter保存路径":就是你训练保存的 lora 目录

这样就可以直接用 LoRA 微调后的模型推理,无需合并!


相关推荐
咕噜咕噜day18 天前
高效微调方法简述
微调·adapter·lora微调·微调与rag区别·微调分类
Nicolas8933 个月前
【大模型实战】利用ms-swift微调框架对QwQ-32B推理模型进行微调
大模型·swift·大模型微调·lora微调·微调框架·推理模型微调·msswift
vivo互联网技术4 个月前
NLLB 与 ChatGPT 双向优化:探索翻译模型与语言模型在小语种应用的融合策略
人工智能·lora微调
MavenTalk10 个月前
大语言模型微调框架Unsloth:简化模型微调流程,提升模型性能
人工智能·语言模型·自然语言处理·unsloth微调·lora微调