本地部署 text-generation-webui

本地部署 text-generation-webui

  • [0. 背景](#0. 背景)
  • [1. text-generation-webui 介绍](#1. text-generation-webui 介绍)
  • [2. 克隆代码](#2. 克隆代码)
  • [3. 创建虚拟环境](#3. 创建虚拟环境)
  • [4. 安装 pytorch](#4. 安装 pytorch)
  • [5. 安装 CUDA 运行时库](#5. 安装 CUDA 运行时库)
  • [6. 安装依赖库](#6. 安装依赖库)
  • [7. 启动 Web UI](#7. 启动 Web UI)
  • [8. 访问 Web UI](#8. 访问 Web UI)
  • [9. OpenAI 兼容 API](#9. OpenAI 兼容 API)

0. 背景

一直喜欢用 FastChat 本地部署大语言模型,今天试一试 text-generation-webui 这个项目。

1. text-generation-webui 介绍

text-generation-webui 适用于大型语言模型的 Gradio Web UI。支持transformers、GPTQ、AWQ、EXL2、llama.cpp (GGUF)、Llama 模型。

它的特点如下,

  • 3种界面模式:default (two columns), notebook, chat
  • 支持多个模型后端:Transformers、llama.cpp(通过 llama-cpp-python)、ExLlama、ExLlamaV2、AutoGPTQ、AutoAWQ、GPTQ-for-LLaMa、CTransformers、QuIP#。
  • 下拉菜单可在不同模型之间快速切换。
  • 大量扩展(内置和用户贡献),包括用于真实语音输出的 Coqui TTS、用于语音输入的 Whisper STT、翻译、多模式管道、向量数据库、Stable Diffusion集成等等。有关详细信息,请参阅 wiki扩展目录
  • 与自定义角色聊天。
  • 适用于指令跟踪模型的精确聊天模板,包括 Llama-2-chat、Alpaca、Vicuna、Mistral。
  • LoRA:使用您自己的数据训练新的 LoRA,动态加载/卸载 LoRA 以进行生成。
  • Transformers 库集成:通过 bitsandbytes 以 4 位或 8 位精度加载模型,将 llama.cpp 与 Transformers 采样器( llamacpp_HF 加载器)结合使用,使用 PyTorch 以 32 位精度进行 CPU 推理。
  • 具有 OpenAI 兼容的 Chat 和 Completions API 服务器 - 请参阅示例

2. 克隆代码

复制代码
git clone https://github.com/oobabooga/text-generation-webui.git; 
cd text-generation-webui

3. 创建虚拟环境

(Optional)安装 Conda,

复制代码
curl -sL "https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh" > "Miniconda3.sh"
bash Miniconda3.sh

创建虚拟环境,

复制代码
conda create -n textgen python=3.11 -y
conda activate textgen

4. 安装 pytorch

复制代码
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

确认 pytorch 是否安装成功,

复制代码
python -c "import torch;print(torch.cuda.is_available()):

--- 安装成功输出应该为 True
True

5. 安装 CUDA 运行时库

复制代码
conda install -y -c "nvidia/label/cuda-12.1.1" cuda-runtime

如果您需要 nvcc 手动编译某些库,请将上面的命令替换为,

复制代码
conda install -y -c "nvidia/label/cuda-12.1.1" cuda

6. 安装依赖库

复制代码
pip install -r requirements.txt
pip install transformers_stream_generator
pip install tiktoken

7. 启动 Web UI

复制代码
python server.py
# python server.py --trust-remote-code --listen

8. 访问 Web UI

使用浏览器打开 http://localhost:7860/?__theme=dark






9. OpenAI 兼容 API

复制代码
pip install -r extensions/openai/requirements.txt

启动,

复制代码
python server.py --trust-remote-code --api --api-port 8000 --listen

refer:https://github.com/oobabooga/text-generation-webui/wiki/12---OpenAI-API

完结!

相关推荐
晨欣3 天前
单卡 48GB 实测:Gemma 4 26B A4B、Gemma 4 31B、gpt-oss-20b 三模型部署与并发对比
google·openai·nvidia·vllm·llama.cpp·gpt-oss-20b·gemma4
belldeep6 天前
AI: ggml llama.cpp 与 BitNet 模型介绍
人工智能·llama.cpp·bitnet·gguf·ggml
love530love14 天前
【独家资源】Windows 本地部署微软 BitNet b1.58: Flash Attention + CUDA GPU 加速 (sm_86) + AVX2 优化 + 1.58bit 量化
人工智能·windows·microsoft·llama.cpp·bitnet·flash attention·bitlinear_cpp
*JOKER15 天前
[LLM量化] 深入理解大模型量化:GPTQ 原理解析
人工智能·深度学习·机器学习·gptq·大模型量化
love530love1 个月前
OpenClaw搭配LM Studio VS Ollama:Windows CUDA实战深度对比与完全配置指南
人工智能·windows·vllm·ollama·llama.cpp·lm studio·openclaw
晨欣1 个月前
llama.cpp 设计巧思:多模态模型拆分加载,按需使用视觉能力(配图由谷歌的Nano Banana模型倾情生成)
llm·谷歌·cursor·llama.cpp·gguf模型·gpt5.4
JohnCHsu1 个月前
性能干翻235B,单卡私有化部署OpenClaw
ai·agent·llama.cpp·openclaw
illuspas2 个月前
MI50运行GLM-4.7-Flash的速度测试
glm·llama.cpp·mi50
容沁风2 个月前
openclaw使用本地llama.cpp
llama.cpp·qwen3·openclaw
缘友一世2 个月前
GPTQ大模型量化端到端实战:校准、压缩与部署评估通用流程
模型量化·gptq