LLaMA-Factory - 批量推理(inference)的脚本

scripts/vllm_infer.py 是 LLaMA-Factory 团队用于批量推理(inference)的脚本,基于 vLLM 引擎,支持高效的并行推理。它可以对一个数据集批量生成模型输出,并保存为 JSONL 文件,适合大规模评测和自动化测试。

一、 环境准备

激活LLaMaFactory环境,进入LLaMaFactory目录

python 复制代码
cd LLaMA-Factory

conda activate llamafactory

已安装 vLLM

你需要先安装 vLLM(https://github.com/vllm-project/vllm),否则脚本无法运行。

python 复制代码
   pip install vllm

已安装 fire

该脚本用 fire 作为命令行参数解析器。

python 复制代码
   pip install fire

准备好模型和数据集

讲待推理文件放到LLaMA-Factory/data目录下

修改dataset_info.json文件

二、如何用 vLLM 正确加载 LoRA/adapter 微调模型进行批量推理?

1. 指定主模型和 adapter

vLLM 支持加载主模型+adapter(LoRA)权重。你需要:

  • --model_name_or_path 指向主模型目录(如 /root/.cache/modelscope/hub/models/XGenerationLab/XiYanSQL-QwenCoder-3B-2504)
  • --adapter_name_or_path 指向adapter目录(如 /root/LLaMA-Factory/output/qwencoder-sft)

2. 命令

python 复制代码
python scripts/vllm_infer.py \
  --model_name_or_path /root/.cache/modelscope/hub/models/XGenerationLab/XiYanSQL-QwenCoder-3B-2504 \
  --adapter_name_or_path /root/LLaMA-Factory/output/qwencoder-sft \
  --dataset merged_1000_for_infer.json \
  --dataset_dir data \
  --template qwen \
  --save_name code_train_10k_predictions.jsonl \
  --max_new_tokens 256

3. 运行效果

相关推荐
xingyuzhisuan6 小时前
适合微调Llama 3 70B模型的最低GPU配置推荐
运维·人工智能·算法·llama·gpu算力
Karry_6661 天前
本地Ollama安装部署
llama
挪不动1 天前
llama.cpp 问题解决记录
llama
code_pgf2 天前
llama.cpp 最新架构详解
人工智能·架构·llama
飞Link2 天前
2026年大模型落地深度对比:Llama 5 开源权重与 GPT-5 闭源生态
gpt·开源·llama
纤纡.5 天前
本地部署 AI 大模型保姆级教程:Ollama 安装、模型下载与终端实战全流程
人工智能·深度学习·语言模型·llama
阿珊和她的猫5 天前
从实践中提炼的架构设计与工程规范
ai·agent·llama·cli·mcp
liulilittle5 天前
LLAMA-CLI 运行千问3.6(R9-7945HX+64G+RTX40608G)
java·前端·llama
青山师5 天前
【大模型提示词工程深度解析:从原理到工业级实践、实践案例】
大模型·prompt·aigc·ai编程·llama·claude·agi
南汁bbj6 天前
Llama 4 开源了!1.2 万亿参数 MoE 模型本地部署 + 推理测试(附代码)
开源·llama