不同加载器的本质是不同的模型运行后端/适配层,它们各自针对特定的模型格式或推理后端进行优化,对应不同的模型量化格式、优化技术和硬件适配方案,核心目的是让WebUI能正确加载并运行各种格式的LLM模型。
1. Transformers
- 核心定义:基于Hugging Face Transformers库的原生加载器,是最基础、兼容性最广的加载方式。
- 适配模型 :未量化的原生HF格式模型(如
.bin/.safetensors格式的Llama-2、Mistral、ChatGLM等),也支持8bit/4bit的BitsAndBytes量化模型。 - 特点 :
- 无需额外量化处理,直接加载原始模型;
- 兼容性最强,但显存占用最高(无量化优化);
- 支持几乎所有HF生态的模型架构(LLaMA、GPT-2、BERT等)。
- 适用场景:有充足显存(如NVIDIA RTX 3090/4090以上),追求模型完整精度,或测试新发布的未量化模型。微调、验证训练效果
2. ExLlamav2
- 核心定义 :基于ExLlamaV2库的高性能加载器,专为LLaMA系列模型优化的EXL2量化格式设计(ExLlamaV2是ExLlama的升级版)
ExLlamav2:纯ExLlamaV2原生加载,仅支持EXL2(.safetensors)格式模型,速度最快;
- 适配模型 :EXL2量化格式的模型(文件名通常含
exl2),如Llama-2-7B-exl2、Mistral-7B-exl2。 - 特点 :
- 显存占用极低(支持2-6bit自定义量化精度),生成速度极快;极快的推理速度(比 Transformers + GPTQ 快数倍)。
- 仅适配NVIDIA GPU(依赖CUDA),不支持CPU/AMD;
- 对LLaMA系模型优化极致,是目前NVIDIA GPU下性价比最高的加载器之一。
- 适用场景:NVIDIA GPU用户,追求极致的速度和显存效率,主要使用LLaMA/Mistral系列模型。
3. ExLlamav2_HF
- 核心定义 :在 ExLlamaV2 引擎基础上,模拟 Hugging Face Transformers 的接口
ExLlamav2_HF:兼容HF格式封装的EXL2模型,适配性更好但性能略低于原生版。- 让依赖 HF 接口的插件(如某些 RAG、LoRA 插件)能与 ExLlamaV2 后端兼容。
- 适配模型 :EXL2量化格式的模型(文件名通常含
exl2),如Llama-2-7B-exl2、Mistral-7B-exl2。 - 特点 :
- 接近原生 ExLlamaV2,但增加一层封装。。
- 适用场景:如果你用到需要 transformers API 的功能(比如某些扩展),但又想用 ExLlamaV2 的速度,就选这个。
4. AutoGPTQ
- 来源 :Hugging Face 官方支持的 auto-gptq 库。
- 核心定义:基于AutoGPTQ库的加载器,适配GPTQ量化格式的模型。
- 适配模型 :GPTQ量化格式的模型(文件名通常含
gptq)(.safetensors),如Llama-2-13B-GPTQ、Qwen-7B-GPTQ。 - 特点 :
- 支持4/6/8bit量化,显存占用远低于原生Transformers;比原生 Transformers 能加载 GPTQ 模型,但速度慢于 ExLlamaV2。
- 兼容性较好,支持更多 GPTQ 变种。
- 兼容NVIDIA GPU(主流),部分支持AMD GPU(ROCm);
- 支持
--wbits/--groupsize等参数微调量化精度,平衡速度和效果。
- 适用场景:NVIDIA/AMD GPU用户,使用GPTQ格式模型,兼顾兼容性和性能。
5. llama.cpp & llamacpp_HF
-
核心定义 :基于llama.cpp库的加载器,适配GGUF量化格式(llama.cpp的新一代格式,替代旧的GGML)。纯 C/C++ 实现,CPU 优先,也支持 GPU 加速(通过 cuBLAS 或 Metal)。
-
纯llama.cpp原生加载,仅支持GGUF格式,适配性最纯粹;
-
适配模型 :GGUF量化格式的模型(文件名通常含
gguf),如Llama-2-7B-Q4_K_M.gguf、Phi-2-Q5_K_V.gguf。 -
特点:
- 跨平台性极强:支持CPU、NVIDIA GPU、AMD GPU、Apple Silicon(M系列芯片);
- 显存/内存占用低,是纯CPU运行LLM的最佳选择;
- 支持多种量化精度(Q2_K、Q4_K_M、Q5_K_V等),可按需选择;
- 生成速度:GPU加速下略慢于ExLlamav2/AutoGPTQ,但CPU下远快于其他加载器。
-
适用场景:无高端NVIDIA GPU的用户(如CPU、AMD、Mac),或需要跨平台运行模型。
6. lllamacpp_HF
- 核心定义 :在 llama.cpp(GGUF 模型)基础上,包装成 Hugging Face Transformers 风格的接口。
llamacpp_HF:兼容HF格式封装的GGUF模型,可复用HF的部分生态(如tokenizer)。- 适配模型 :GGUF量化格式的模型(文件名通常含
gguf),如Llama-2-7B-Q4_K_M.gguf、Phi-2-Q5_K_V.gguf。 - 特点 :
- 与 llama.cpp 相同,但增加了接口转换开销。
- 适用场景:当你用 GGUF 模型,但某些插件要求"像 HF 模型一样工作"时使用。
7. AutoAWQ
- 核心定义:基于AutoAWQ库的加载器,适配AWQ量化格式的模型。
- 适配模型 :AWQ量化格式的模型(文件名通常含
awq),如Llama-2-7B-AWQ、Yi-34B-AWQ。 - 特点 :
- AWQ 是一种更高质量的 4-bit 量化方法(相比 GPTQ,在相同 bit 下通常保留更多性能)。
- 量化效率高(4bit为主),速度和显存占用接近GPTQ,部分场景下效果更优;
- 主要支持NVIDIA GPU,对新架构(如Ada Lovelace)优化较好;
- 兼容性略低于GPTQ,支持的模型架构相对少一些。
- 适用场景 :NVIDIA GPU用户,使用AWQ格式模型,追求比GPTQ更优的量化效果。追求高质量 4-bit 推理,且有兼容 AWQ 的模型(如 Mistral-7B-AWQ、Llama-3-8B-AWQ 等)。
7. ExLlamaV3
-
核心定义 : 是 turboderp 开发的 ExLlama 系列的最新版本 (继 V1/V2 之后),专为 GPTQ 量化模型 设计。在保持 ExLlamaV2 极速推理的基础上,进一步优化显存使用、支持更大上下文、提升兼容性与易用性。
-
适配模型 :AWQ量化格式的模型(文件名通常含
awq),如Llama-2-7B-AWQ、Yi-34B-AWQ。 -
特点:
- 更快的推理速度:相比 V2,内核进一步优化,尤其在 batch 推理和长上下文场景下更高效。
- 更低的显存占用:通过更精细的内存管理,可在相同显存下运行更大模型或更长序列。
- 原生支持 RoPE 缩放(如 YaRN、Dynamic NTK),便于扩展上下文(如 32K+)。
- 更好的 GPTQ 模型兼容性:支持更多变种的 GPTQ 配置(如不同 group size、act-order 等)。
- 仍仅支持 NVIDIA GPU(CUDA + cuBLAS)。
- 仍在积极开发中,可能不如 V2 稳定(截至 2026 年初)。
-
适用场景:
- 你有 NVIDIA GPU(如 RTX 30/40 系列)。
- 使用 GPTQ 量化模型 (如
TheBloke/Llama-2-7B-GPTQ)。 - 追求极致推理速度与低显存占用。
8. ExLlamaV3_HF
-
核心定义:
- 这是 ExLlamaV3 的 Hugging Face 兼容封装层。
- 它让 ExLlamaV3 引擎对外暴露一个类似
transformers的 API 接口 (例如model.generate()、tokenizer等)。
-
很多 text-generation-webui 的插件 (如 LoRA、RAG、Agent 工具调用)是基于 Hugging Face
transformers库开发的。 -
如果直接用原生 ExLlamaV3,这些插件可能无法工作。
-
ExLlamaV3_HF = ExLlamaV3 的性能 + Transformers 的接口兼容性。
-
特点:
-
速度略低于原生 ExLlamaV3(因有封装开销),但远快于 AutoGPTQ 或 Transformers。
-
插件兼容性显著提升。
🔹 使用建议
- 当你需要 ExLlamaV3 的速度 + 插件功能(如加载 LoRA 适配器)时,选择此项。
9.TensorRT-LLM
-
核心定义:
- 由 NVIDIA 官方开发 的 LLM 推理优化框架,基于 TensorRT(NVIDIA 的高性能推理 SDK)。
- 目标:在 NVIDIA GPU 上实现业界领先的吞吐量与延迟表现 ,尤其适合生产部署。
-
特点:
-
极致性能:通过图优化、内核融合、量化感知训练(QAT)等技术,比 PyTorch 快数倍。
-
支持 FP8 / INT8 / INT4 量化(需模型经过 TRT-LLM 专用流程转换)。
-
支持 连续批处理 (Continuous Batching)、多 GPU 推理 、张量并行。
-
官方支持主流模型:Llama, Mistral, Gemma, Qwen, ChatGLM 等。
-
使用门槛高:
- 模型需先通过 TRT-LLM 构建引擎(build engine),过程复杂且耗时。
- 需要熟悉 Python/C++ API 或使用 NVIDIA 提供的脚本。
- 对 CUDA/cuDNN/TensorRT 版本有严格要求。
-
仅限 NVIDIA 数据中心级 GPU(如 A100, H100)效果最佳,消费卡(如 RTX 4090)也能用但收益有限。
-
通常通过
tensorrt-llm加载器集成(需手动安装 TRT-LLM 及其依赖)。 -
一旦构建好
.engine文件,加载速度极快,推理延迟极低。 -
适合高并发、低延迟的本地服务部署。
-
-
特点:
- 你有 高端 NVIDIA GPU(如 A100/H100/RTX 6000 Ada)。
- 需要最大化吞吐量(如 API 服务、批量生成)。
- 愿意花时间转换模型为 TRT-LLM 引擎格式。
加载器选择速查表
| 加载器 | 适配格式 | 核心优势 | 适用硬件 | 推荐优先级(新手) |
|---|---|---|---|---|
| Transformers | 原生HF | 兼容性最广,无量化限制 | 全平台(显存要求高) | ★★★☆☆ |
| ExLlamav2/ExLlamav2_HF | EXL2 | 速度最快,显存占用最低 | NVIDIA GPU | ★★★★★(NVIDIA用户) |
| AutoGPTQ | GPTQ | 兼容性好,平衡速度/显存 | NVIDIA/AMD GPU | ★★★★☆ |
| llama.cpp/llamacpp_HF | GGUF | 跨平台,CPU运行最佳 | 全平台(CPU/AMD/Mac) | ★★★★☆(非NVIDIA用户) |
| AutoAWQ | AWQ | 量化效果优 | NVIDIA GPU | ★★★☆☆ |
| 加载器 | 适用模型格式 | 硬件要求 | 速度 | 显存效率 | 易用性 | 插件兼容性 |
|---|---|---|---|---|---|---|
| ExLlamaV3 | GPTQ (.safetensors) | NVIDIA GPU | ⚡⚡⚡⚡⚡ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ❌(原生) |
| ExLlamaV3_HF | GPTQ (.safetensors) | NVIDIA GPU | ⚡⚡⚡⚡ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ✅(HF 风格) |
| TensorRT-LLM | TRT-LLM 引擎 (.engine) | NVIDIA GPU(推荐数据中心卡) | ⚡⚡⚡⚡⚡+ | ⭐⭐⭐⭐ | ⭐(复杂) | 有限 |