text-generateion-webui模型加载器(Model Loaders)选项

不同加载器的本质是不同的模型运行后端/适配层,它们各自针对特定的模型格式或推理后端进行优化,对应不同的模型量化格式、优化技术和硬件适配方案,核心目的是让WebUI能正确加载并运行各种格式的LLM模型。

1. Transformers
  • 核心定义:基于Hugging Face Transformers库的原生加载器,是最基础、兼容性最广的加载方式。
  • 适配模型 :未量化的原生HF格式模型(如.bin/.safetensors格式的Llama-2、Mistral、ChatGLM等),也支持8bit/4bit的BitsAndBytes量化模型。
  • 特点
    • 无需额外量化处理,直接加载原始模型;
    • 兼容性最强,但显存占用最高(无量化优化);
    • 支持几乎所有HF生态的模型架构(LLaMA、GPT-2、BERT等)。
  • 适用场景:有充足显存(如NVIDIA RTX 3090/4090以上),追求模型完整精度,或测试新发布的未量化模型。微调、验证训练效果
2. ExLlamav2
  • 核心定义 :基于ExLlamaV2库的高性能加载器,专为LLaMA系列模型优化的EXL2量化格式设计(ExLlamaV2是ExLlama的升级版)
    • ExLlamav2:纯ExLlamaV2原生加载,仅支持EXL2(.safetensors)格式模型,速度最快;
  • 适配模型 :EXL2量化格式的模型(文件名通常含exl2),如Llama-2-7B-exl2、Mistral-7B-exl2。
  • 特点
    • 显存占用极低(支持2-6bit自定义量化精度),生成速度极快;极快的推理速度(比 Transformers + GPTQ 快数倍)。
    • 仅适配NVIDIA GPU(依赖CUDA),不支持CPU/AMD;
    • 对LLaMA系模型优化极致,是目前NVIDIA GPU下性价比最高的加载器之一。
  • 适用场景:NVIDIA GPU用户,追求极致的速度和显存效率,主要使用LLaMA/Mistral系列模型。
3. ExLlamav2_HF
  • 核心定义 :在 ExLlamaV2 引擎基础上,模拟 Hugging Face Transformers 的接口
    • ExLlamav2_HF:兼容HF格式封装的EXL2模型,适配性更好但性能略低于原生版。
    • 让依赖 HF 接口的插件(如某些 RAG、LoRA 插件)能与 ExLlamaV2 后端兼容。
  • 适配模型 :EXL2量化格式的模型(文件名通常含exl2),如Llama-2-7B-exl2、Mistral-7B-exl2。
  • 特点
    • 接近原生 ExLlamaV2,但增加一层封装。。
  • 适用场景:如果你用到需要 transformers API 的功能(比如某些扩展),但又想用 ExLlamaV2 的速度,就选这个。
4. AutoGPTQ
  • 来源 :Hugging Face 官方支持的 auto-gptq 库。
  • 核心定义:基于AutoGPTQ库的加载器,适配GPTQ量化格式的模型。
  • 适配模型 :GPTQ量化格式的模型(文件名通常含gptq)(.safetensors),如Llama-2-13B-GPTQ、Qwen-7B-GPTQ。
  • 特点
    • 支持4/6/8bit量化,显存占用远低于原生Transformers;比原生 Transformers 能加载 GPTQ 模型,但速度慢于 ExLlamaV2
    • 兼容性较好,支持更多 GPTQ 变种。
    • 兼容NVIDIA GPU(主流),部分支持AMD GPU(ROCm);
    • 支持--wbits/--groupsize等参数微调量化精度,平衡速度和效果。
  • 适用场景:NVIDIA/AMD GPU用户,使用GPTQ格式模型,兼顾兼容性和性能。
5. llama.cpp & llamacpp_HF
  • 核心定义 :基于llama.cpp库的加载器,适配GGUF量化格式(llama.cpp的新一代格式,替代旧的GGML)。纯 C/C++ 实现,CPU 优先,也支持 GPU 加速(通过 cuBLAS 或 Metal)。

  • 纯llama.cpp原生加载,仅支持GGUF格式,适配性最纯粹;

  • 适配模型 :GGUF量化格式的模型(文件名通常含gguf),如Llama-2-7B-Q4_K_M.gguf、Phi-2-Q5_K_V.gguf。

  • 特点

    • 跨平台性极强:支持CPU、NVIDIA GPU、AMD GPU、Apple Silicon(M系列芯片);
    • 显存/内存占用低,是纯CPU运行LLM的最佳选择;
    • 支持多种量化精度(Q2_K、Q4_K_M、Q5_K_V等),可按需选择;
    • 生成速度:GPU加速下略慢于ExLlamav2/AutoGPTQ,但CPU下远快于其他加载器。
  • 适用场景:无高端NVIDIA GPU的用户(如CPU、AMD、Mac),或需要跨平台运行模型。

6. lllamacpp_HF
  • 核心定义 :在 llama.cpp(GGUF 模型)基础上,包装成 Hugging Face Transformers 风格的接口
  • llamacpp_HF:兼容HF格式封装的GGUF模型,可复用HF的部分生态(如tokenizer)。
  • 适配模型 :GGUF量化格式的模型(文件名通常含gguf),如Llama-2-7B-Q4_K_M.gguf、Phi-2-Q5_K_V.gguf。
  • 特点
    • 与 llama.cpp 相同,但增加了接口转换开销。
  • 适用场景:当你用 GGUF 模型,但某些插件要求"像 HF 模型一样工作"时使用。
7. AutoAWQ
  • 核心定义:基于AutoAWQ库的加载器,适配AWQ量化格式的模型。
  • 适配模型 :AWQ量化格式的模型(文件名通常含awq),如Llama-2-7B-AWQ、Yi-34B-AWQ。
  • 特点
    • AWQ 是一种更高质量的 4-bit 量化方法(相比 GPTQ,在相同 bit 下通常保留更多性能)。
    • 量化效率高(4bit为主),速度和显存占用接近GPTQ,部分场景下效果更优;
    • 主要支持NVIDIA GPU,对新架构(如Ada Lovelace)优化较好;
    • 兼容性略低于GPTQ,支持的模型架构相对少一些。
  • 适用场景 :NVIDIA GPU用户,使用AWQ格式模型,追求比GPTQ更优的量化效果。追求高质量 4-bit 推理,且有兼容 AWQ 的模型(如 Mistral-7B-AWQ、Llama-3-8B-AWQ 等)。
7. ExLlamaV3
  • 核心定义 : 是 turboderp 开发的 ExLlama 系列的最新版本 (继 V1/V2 之后),专为 GPTQ 量化模型 设计。在保持 ExLlamaV2 极速推理的基础上,进一步优化显存使用、支持更大上下文、提升兼容性与易用性

  • 适配模型 :AWQ量化格式的模型(文件名通常含awq),如Llama-2-7B-AWQ、Yi-34B-AWQ。

  • 特点

    • 更快的推理速度:相比 V2,内核进一步优化,尤其在 batch 推理和长上下文场景下更高效。
    • 更低的显存占用:通过更精细的内存管理,可在相同显存下运行更大模型或更长序列。
    • 原生支持 RoPE 缩放(如 YaRN、Dynamic NTK),便于扩展上下文(如 32K+)。
    • 更好的 GPTQ 模型兼容性:支持更多变种的 GPTQ 配置(如不同 group size、act-order 等)。
    • 仍仅支持 NVIDIA GPU(CUDA + cuBLAS)。
    • 仍在积极开发中,可能不如 V2 稳定(截至 2026 年初)。
  • 适用场景

    • 你有 NVIDIA GPU(如 RTX 30/40 系列)。
    • 使用 GPTQ 量化模型 (如 TheBloke/Llama-2-7B-GPTQ)。
    • 追求极致推理速度与低显存占用
8. ExLlamaV3_HF
  • 核心定义

    • 这是 ExLlamaV3 的 Hugging Face 兼容封装层
    • 它让 ExLlamaV3 引擎对外暴露一个类似 transformers 的 API 接口 (例如 model.generate()tokenizer 等)。
  • 很多 text-generation-webui 的插件 (如 LoRA、RAG、Agent 工具调用)是基于 Hugging Face transformers 库开发的。

  • 如果直接用原生 ExLlamaV3,这些插件可能无法工作。

  • ExLlamaV3_HF = ExLlamaV3 的性能 + Transformers 的接口兼容性

  • 特点

  • 速度略低于原生 ExLlamaV3(因有封装开销),但远快于 AutoGPTQ 或 Transformers。

  • 插件兼容性显著提升。

🔹 使用建议
  • 当你需要 ExLlamaV3 的速度 + 插件功能(如加载 LoRA 适配器)时,选择此项。
9.TensorRT-LLM
  • 核心定义

    • NVIDIA 官方开发 的 LLM 推理优化框架,基于 TensorRT(NVIDIA 的高性能推理 SDK)。
    • 目标:在 NVIDIA GPU 上实现业界领先的吞吐量与延迟表现 ,尤其适合生产部署
  • 特点

    • 极致性能:通过图优化、内核融合、量化感知训练(QAT)等技术,比 PyTorch 快数倍。

    • 支持 FP8 / INT8 / INT4 量化(需模型经过 TRT-LLM 专用流程转换)。

    • 支持 连续批处理 (Continuous Batching)、多 GPU 推理张量并行

    • 官方支持主流模型:Llama, Mistral, Gemma, Qwen, ChatGLM 等。

    • 使用门槛高

      • 模型需先通过 TRT-LLM 构建引擎(build engine),过程复杂且耗时。
      • 需要熟悉 Python/C++ API 或使用 NVIDIA 提供的脚本。
      • 对 CUDA/cuDNN/TensorRT 版本有严格要求。
    • 仅限 NVIDIA 数据中心级 GPU(如 A100, H100)效果最佳,消费卡(如 RTX 4090)也能用但收益有限。

    • 通常通过 tensorrt-llm 加载器集成(需手动安装 TRT-LLM 及其依赖)。

    • 一旦构建好 .engine 文件,加载速度极快,推理延迟极低。

    • 适合高并发、低延迟的本地服务部署

  • 特点

    • 你有 高端 NVIDIA GPU(如 A100/H100/RTX 6000 Ada)。
    • 需要最大化吞吐量(如 API 服务、批量生成)。
    • 愿意花时间转换模型为 TRT-LLM 引擎格式

加载器选择速查表

加载器 适配格式 核心优势 适用硬件 推荐优先级(新手)
Transformers 原生HF 兼容性最广,无量化限制 全平台(显存要求高) ★★★☆☆
ExLlamav2/ExLlamav2_HF EXL2 速度最快,显存占用最低 NVIDIA GPU ★★★★★(NVIDIA用户)
AutoGPTQ GPTQ 兼容性好,平衡速度/显存 NVIDIA/AMD GPU ★★★★☆
llama.cpp/llamacpp_HF GGUF 跨平台,CPU运行最佳 全平台(CPU/AMD/Mac) ★★★★☆(非NVIDIA用户)
AutoAWQ AWQ 量化效果优 NVIDIA GPU ★★★☆☆
加载器 适用模型格式 硬件要求 速度 显存效率 易用性 插件兼容性
ExLlamaV3 GPTQ (.safetensors) NVIDIA GPU ⚡⚡⚡⚡⚡ ⭐⭐⭐⭐⭐ ⭐⭐⭐ ❌(原生)
ExLlamaV3_HF GPTQ (.safetensors) NVIDIA GPU ⚡⚡⚡⚡ ⭐⭐⭐⭐ ⭐⭐⭐ ✅(HF 风格)
TensorRT-LLM TRT-LLM 引擎 (.engine) NVIDIA GPU(推荐数据中心卡) ⚡⚡⚡⚡⚡+ ⭐⭐⭐⭐ ⭐(复杂) 有限
相关推荐
珠海西格电力3 小时前
零碳园区有哪些政策支持?
大数据·数据库·人工智能·物联网·能源
启途AI4 小时前
2026免费好用的AIPPT工具榜:智能演示文稿制作新纪元
人工智能·powerpoint·ppt
TH_14 小时前
35、AI自动化技术与职业变革探讨
运维·人工智能·自动化
楚来客4 小时前
AI基础概念之八:Transformer算法通俗解析
人工智能·算法·transformer
风送雨4 小时前
FastMCP 2.0 服务端开发教学文档(下)
服务器·前端·网络·人工智能·python·ai
效率客栈老秦4 小时前
Python Trae提示词开发实战(8):数据采集与清洗一体化方案让效率提升10倍
人工智能·python·ai·提示词·trae
小和尚同志4 小时前
虽然 V0 很强大,但是ScreenshotToCode 依旧有市场
人工智能·aigc
HyperAI超神经4 小时前
【vLLM 学习】Rlhf
人工智能·深度学习·学习·机器学习·vllm
芯盾时代4 小时前
石油化工行业网络风险解决方案
网络·人工智能·信息安全
线束线缆组件品替网4 小时前
Weidmüller 工业以太网线缆技术与兼容策略解析
网络·人工智能·电脑·硬件工程·材料工程