LLaMA-Factory - 批量推理(inference)的脚本

scripts/vllm_infer.py 是 LLaMA-Factory 团队用于批量推理(inference)的脚本,基于 vLLM 引擎,支持高效的并行推理。它可以对一个数据集批量生成模型输出,并保存为 JSONL 文件,适合大规模评测和自动化测试。

一、 环境准备

激活LLaMaFactory环境,进入LLaMaFactory目录

python 复制代码
cd LLaMA-Factory

conda activate llamafactory

已安装 vLLM

你需要先安装 vLLM(https://github.com/vllm-project/vllm),否则脚本无法运行。

python 复制代码
   pip install vllm

已安装 fire

该脚本用 fire 作为命令行参数解析器。

python 复制代码
   pip install fire

准备好模型和数据集

讲待推理文件放到LLaMA-Factory/data目录下

修改dataset_info.json文件

二、如何用 vLLM 正确加载 LoRA/adapter 微调模型进行批量推理?

1. 指定主模型和 adapter

vLLM 支持加载主模型+adapter(LoRA)权重。你需要:

  • --model_name_or_path 指向主模型目录(如 /root/.cache/modelscope/hub/models/XGenerationLab/XiYanSQL-QwenCoder-3B-2504)
  • --adapter_name_or_path 指向adapter目录(如 /root/LLaMA-Factory/output/qwencoder-sft)

2. 命令

python 复制代码
python scripts/vllm_infer.py \
  --model_name_or_path /root/.cache/modelscope/hub/models/XGenerationLab/XiYanSQL-QwenCoder-3B-2504 \
  --adapter_name_or_path /root/LLaMA-Factory/output/qwencoder-sft \
  --dataset merged_1000_for_infer.json \
  --dataset_dir data \
  --template qwen \
  --save_name code_train_10k_predictions.jsonl \
  --max_new_tokens 256

3. 运行效果

相关推荐
居7然10 小时前
如何高效微调大模型?LLama-Factory一站式解决方案全解析
人工智能·大模型·llama·大模型训练·vllm
万事可爱^10 小时前
如何在云服务器上使用LLaMA Factory框架微调模型
运维·服务器·llm·sft·llama·模型微调·ai agent
max50060020 小时前
基于Meta Llama的二语习得学习者行为预测计算模型
人工智能·算法·机器学习·分类·数据挖掘·llama
谷咕咕20 小时前
windows下python3,LLaMA-Factory部署以及微调大模型,ollama运行对话,开放api,java,springboot项目调用
java·windows·语言模型·llama
时序之心3 天前
ACL 2025 Time-LlaMA 大语言模型高效适配时间序列预测
人工智能·语言模型·论文·llama·时间序列
谷新龙0013 天前
mac m4电脑运行 LLaMA Factory 微调
macos·llama
qzhqbb3 天前
LLaMA-Factory+Lora+modelscope(离线版)
llama
大模型教程10 天前
小白学大模型:从零搭建LLaMA
程序员·llm·llama
Jina AI12 天前
让 llama.cpp 支持多模态向量模型
llama
wyw000012 天前
大模型微调之LLaMA-Factory实战
llama