text-generateion-webui模型加载器（Model Loaders）选项

不同加载器的本质是不同的模型运行后端/适配层，它们各自针对特定的模型格式或推理后端进行优化，对应不同的模型量化格式、优化技术和硬件适配方案，核心目的是让WebUI能正确加载并运行各种格式的LLM模型。

1. Transformers

核心定义：基于Hugging Face Transformers库的原生加载器，是最基础、兼容性最广的加载方式。
适配模型 ：未量化的原生HF格式模型（如.bin/.safetensors格式的Llama-2、Mistral、ChatGLM等），也支持8bit/4bit的BitsAndBytes量化模型。
特点：
- 无需额外量化处理，直接加载原始模型；
- 兼容性最强，但显存占用最高（无量化优化）；
- 支持几乎所有HF生态的模型架构（LLaMA、GPT-2、BERT等）。
适用场景：有充足显存（如NVIDIA RTX 3090/4090以上），追求模型完整精度，或测试新发布的未量化模型。微调、验证训练效果

2. ExLlamav2

核心定义 ：基于ExLlamaV2库的高性能加载器，专为LLaMA系列模型优化的EXL2量化格式设计（ExLlamaV2是ExLlama的升级版）
- ExLlamav2：纯ExLlamaV2原生加载，仅支持EXL2（.safetensors）格式模型，速度最快；
适配模型 ：EXL2量化格式的模型（文件名通常含exl2），如Llama-2-7B-exl2、Mistral-7B-exl2。
特点：
- 显存占用极低（支持2-6bit自定义量化精度），生成速度极快；极快的推理速度（比 Transformers + GPTQ 快数倍）。
- 仅适配NVIDIA GPU（依赖CUDA），不支持CPU/AMD；
- 对LLaMA系模型优化极致，是目前NVIDIA GPU下性价比最高的加载器之一。
适用场景：NVIDIA GPU用户，追求极致的速度和显存效率，主要使用LLaMA/Mistral系列模型。

3. ExLlamav2_HF

核心定义 ：在 ExLlamaV2 引擎基础上，模拟 Hugging Face Transformers 的接口
- ExLlamav2_HF：兼容HF格式封装的EXL2模型，适配性更好但性能略低于原生版。
- 让依赖 HF 接口的插件（如某些 RAG、LoRA 插件）能与 ExLlamaV2 后端兼容。
适配模型 ：EXL2量化格式的模型（文件名通常含exl2），如Llama-2-7B-exl2、Mistral-7B-exl2。
特点：
- 接近原生 ExLlamaV2，但增加一层封装。。
适用场景：如果你用到需要 transformers API 的功能（比如某些扩展），但又想用 ExLlamaV2 的速度，就选这个。

4. AutoGPTQ

来源：Hugging Face 官方支持的 auto-gptq 库。
核心定义：基于AutoGPTQ库的加载器，适配GPTQ量化格式的模型。
适配模型 ：GPTQ量化格式的模型（文件名通常含gptq）（.safetensors），如Llama-2-13B-GPTQ、Qwen-7B-GPTQ。
特点：
- 支持4/6/8bit量化，显存占用远低于原生Transformers；比原生 Transformers 能加载 GPTQ 模型，但速度慢于 ExLlamaV2。
- 兼容性较好，支持更多 GPTQ 变种。
- 兼容NVIDIA GPU（主流），部分支持AMD GPU（ROCm）；
- 支持--wbits/--groupsize等参数微调量化精度，平衡速度和效果。
适用场景：NVIDIA/AMD GPU用户，使用GPTQ格式模型，兼顾兼容性和性能。

5. llama.cpp & llamacpp_HF

核心定义 ：基于llama.cpp库的加载器，适配GGUF量化格式（llama.cpp的新一代格式，替代旧的GGML）。纯 C/C++ 实现，CPU 优先，也支持 GPU 加速（通过 cuBLAS 或 Metal）。
纯llama.cpp原生加载，仅支持GGUF格式，适配性最纯粹；
适配模型 ：GGUF量化格式的模型（文件名通常含gguf），如Llama-2-7B-Q4_K_M.gguf、Phi-2-Q5_K_V.gguf。
特点：
- 跨平台性极强：支持CPU、NVIDIA GPU、AMD GPU、Apple Silicon（M系列芯片）；
- 显存/内存占用低，是纯CPU运行LLM的最佳选择；
- 支持多种量化精度（Q2_K、Q4_K_M、Q5_K_V等），可按需选择；
- 生成速度：GPU加速下略慢于ExLlamav2/AutoGPTQ，但CPU下远快于其他加载器。
适用场景：无高端NVIDIA GPU的用户（如CPU、AMD、Mac），或需要跨平台运行模型。

6. lllamacpp_HF

核心定义 ：在 llama.cpp（GGUF 模型）基础上，包装成 Hugging Face Transformers 风格的接口。
llamacpp_HF：兼容HF格式封装的GGUF模型，可复用HF的部分生态（如tokenizer）。
适配模型 ：GGUF量化格式的模型（文件名通常含gguf），如Llama-2-7B-Q4_K_M.gguf、Phi-2-Q5_K_V.gguf。
特点：
- 与 llama.cpp 相同，但增加了接口转换开销。
适用场景：当你用 GGUF 模型，但某些插件要求"像 HF 模型一样工作"时使用。

7. AutoAWQ

核心定义：基于AutoAWQ库的加载器，适配AWQ量化格式的模型。
适配模型 ：AWQ量化格式的模型（文件名通常含awq），如Llama-2-7B-AWQ、Yi-34B-AWQ。
特点：
- AWQ 是一种更高质量的 4-bit 量化方法（相比 GPTQ，在相同 bit 下通常保留更多性能）。
- 量化效率高（4bit为主），速度和显存占用接近GPTQ，部分场景下效果更优；
- 主要支持NVIDIA GPU，对新架构（如Ada Lovelace）优化较好；
- 兼容性略低于GPTQ，支持的模型架构相对少一些。
适用场景 ：NVIDIA GPU用户，使用AWQ格式模型，追求比GPTQ更优的量化效果。追求高质量 4-bit 推理，且有兼容 AWQ 的模型（如 Mistral-7B-AWQ、Llama-3-8B-AWQ 等）。

7. ExLlamaV3

核心定义 ：是 turboderp 开发的 ExLlama 系列的最新版本 （继 V1/V2 之后），专为 GPTQ 量化模型 设计。在保持 ExLlamaV2 极速推理的基础上，进一步优化显存使用、支持更大上下文、提升兼容性与易用性。
适配模型 ：AWQ量化格式的模型（文件名通常含awq），如Llama-2-7B-AWQ、Yi-34B-AWQ。
特点：
- 更快的推理速度：相比 V2，内核进一步优化，尤其在 batch 推理和长上下文场景下更高效。
- 更低的显存占用：通过更精细的内存管理，可在相同显存下运行更大模型或更长序列。
- 原生支持 RoPE 缩放（如 YaRN、Dynamic NTK），便于扩展上下文（如 32K+）。
- 更好的 GPTQ 模型兼容性：支持更多变种的 GPTQ 配置（如不同 group size、act-order 等）。
- 仍仅支持 NVIDIA GPU（CUDA + cuBLAS）。
- 仍在积极开发中，可能不如 V2 稳定（截至 2026 年初）。
适用场景：
- 你有 NVIDIA GPU（如 RTX 30/40 系列）。
- 使用 GPTQ 量化模型 （如 TheBloke/Llama-2-7B-GPTQ）。
- 追求极致推理速度与低显存占用。

8. ExLlamaV3_HF

核心定义：
- 这是 ExLlamaV3 的 Hugging Face 兼容封装层。
- 它让 ExLlamaV3 引擎对外暴露一个类似 transformers 的 API 接口 （例如 model.generate()、tokenizer 等）。
很多 text-generation-webui 的插件（如 LoRA、RAG、Agent 工具调用）是基于 Hugging Face transformers 库开发的。
如果直接用原生 ExLlamaV3，这些插件可能无法工作。
ExLlamaV3_HF = ExLlamaV3 的性能 + Transformers 的接口兼容性。
特点：
速度略低于原生 ExLlamaV3（因有封装开销），但远快于 AutoGPTQ 或 Transformers。
插件兼容性显著提升。

🔹 使用建议

当你需要 ExLlamaV3 的速度 + 插件功能（如加载 LoRA 适配器）时，选择此项。

9.TensorRT-LLM

核心定义：
- 由 NVIDIA 官方开发 的 LLM 推理优化框架，基于 TensorRT（NVIDIA 的高性能推理 SDK）。
- 目标：在 NVIDIA GPU 上实现业界领先的吞吐量与延迟表现 ，尤其适合生产部署。
特点：
- 极致性能：通过图优化、内核融合、量化感知训练（QAT）等技术，比 PyTorch 快数倍。
- 支持 FP8 / INT8 / INT4 量化（需模型经过 TRT-LLM 专用流程转换）。
- 支持 连续批处理 （Continuous Batching）、多 GPU 推理 、张量并行。
- 官方支持主流模型：Llama, Mistral, Gemma, Qwen, ChatGLM 等。
- 使用门槛高：
  - 模型需先通过 TRT-LLM 构建引擎（build engine），过程复杂且耗时。
  - 需要熟悉 Python/C++ API 或使用 NVIDIA 提供的脚本。
  - 对 CUDA/cuDNN/TensorRT 版本有严格要求。
- 仅限 NVIDIA 数据中心级 GPU（如 A100, H100）效果最佳，消费卡（如 RTX 4090）也能用但收益有限。
- 通常通过 tensorrt-llm 加载器集成（需手动安装 TRT-LLM 及其依赖）。
- 一旦构建好 .engine 文件，加载速度极快，推理延迟极低。
- 适合高并发、低延迟的本地服务部署。
特点：
- 你有 高端 NVIDIA GPU（如 A100/H100/RTX 6000 Ada）。
- 需要最大化吞吐量（如 API 服务、批量生成）。
- 愿意花时间转换模型为 TRT-LLM 引擎格式。

加载器选择速查表

加载器	适配格式	核心优势	适用硬件	推荐优先级（新手）
Transformers	原生HF	兼容性最广，无量化限制	全平台（显存要求高）	★★★☆☆
ExLlamav2/ExLlamav2_HF	EXL2	速度最快，显存占用最低	NVIDIA GPU	★★★★★（NVIDIA用户）
AutoGPTQ	GPTQ	兼容性好，平衡速度/显存	NVIDIA/AMD GPU	★★★★☆
llama.cpp/llamacpp_HF	GGUF	跨平台，CPU运行最佳	全平台（CPU/AMD/Mac）	★★★★☆（非NVIDIA用户）
AutoAWQ	AWQ	量化效果优	NVIDIA GPU	★★★☆☆

加载器	适用模型格式	硬件要求	速度	显存效率	易用性	插件兼容性
ExLlamaV3	GPTQ (.safetensors)	NVIDIA GPU	⚡⚡⚡⚡⚡	⭐⭐⭐⭐⭐	⭐⭐⭐	❌（原生）
ExLlamaV3_HF	GPTQ (.safetensors)	NVIDIA GPU	⚡⚡⚡⚡	⭐⭐⭐⭐	⭐⭐⭐	✅（HF 风格）
TensorRT-LLM	TRT-LLM 引擎 (.engine)	NVIDIA GPU（推荐数据中心卡）	⚡⚡⚡⚡⚡+	⭐⭐⭐⭐	⭐（复杂）	有限