【个人笔记本】本地化部署 类chatgpt模型 详细流程

不推荐小白,环境配置比较复杂

全部流程

  • 下载原始模型:Chinese-LLaMA-Alpaca-2
  • linux部署llamacpp环境
  • 使用llamacpp将Chinese-LLaMA-Alpaca-2模型转换为gguf模型
  • windows部署Text generation web UI 环境
  • 使用Text generation web UI 加载模型并进行对话

准备工作

  1. 笔记本环境:

    • 操作系统:win11
    • CPU:AMD R7535HS
    • GPU:笔记本4060显卡
    • CUDA版本:11.8
    • VM虚拟机:Ubuntu16
  2. 下载模型和部署环境全程需要挂梯子


下载原始模型

原项目链接:https://github.com/ymcui/Chinese-LLaMA-Alpaca-2

模型名称 类型 大小 下载地址
Chinese-LLaMA-2-13B 基座模型 24.7 GB [百度](https://pan.baidu.com/s/1T3RqEUSmyg6ZuBwMhwSmoQ?pwd=e9qy) [Google](https://drive.google.com/drive/folders/1YNa5qJ0x59OEOI7tNODxea-1YvMPoH05?usp=share_link) [🤗HF](https://huggingface.co/ziqingyang/chinese-llama-2-13b)
Chinese-LLaMA-2-7B 基座模型 12.9 GB [百度](https://pan.baidu.com/s/1E5NI3nlQpx1j8z3eIzbIlg?pwd=n8k3) [Google](https://drive.google.com/drive/folders/18pp4I-mvQxRA7b8vF9gP-2cH_ocnXVKh?usp=share_link) [🤗HF](https://huggingface.co/ziqingyang/chinese-llama-2-7b)
Chinese-Alpaca-2-13B 指令模型 24.7 GB [百度](https://pan.baidu.com/s/1MT_Zlap1OtdYMgoBNTS3dg?pwd=9xja) [Google](https://drive.google.com/drive/folders/1MTsKlzR61xmbTR4hBWzQas_MOpUZsogN?usp=share_link) [🤗HF](https://huggingface.co/ziqingyang/chinese-alpaca-2-13b)
Chinese-Alpaca-2-7B 指令模型 12.9 GB [百度](https://pan.baidu.com/s/1wxx-CdgbMupXVRBcaN4Slw?pwd=kpn9) [Google](https://drive.google.com/drive/folders/1JsJDVs7tE2y31PBNleBlDPsB7S0ZrY8d?usp=share_link) [🤗HF](https://huggingface.co/ziqingyang/chinese-alpaca-2-7b)

下载Chinese-Alpaca-2-7B模型即可,百度网盘不需要挂梯子,其他都需要梯子


linux部署llamacpp环境

原项目链接:https://github.com/ggerganov/llama.cpp

原文档链接:https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/llamacpp_zh

Step 1: 安装python3.10

bash 复制代码
sudo apt update
sudo apt install python3.10

Step 2: 克隆和编译llama.cpp

  1. 拉取最新版llama.cpp仓库代码

    bash 复制代码
    # 要安装git+梯子
    git clone https://github.com/ggerganov/llama.cpp

    或者

    bash 复制代码
    #浏览器挂梯子打开https://github.com/ggerganov/llama.cpp
    #下载项目
    #解压缩项目到本地
  2. 对llama.cpp项目进行编译,生成./main(用于推理)和./quantize(用于量化)二进制文件

    bash 复制代码
    cd 解压缩项目路径
    make

Step 3: 生成量化版本模型

  1. 创建目录并拷贝模型到项目目录:zh-models/7B/

  2. 将Chinese-LLaMA-Alpaca-2模型转换为gguf模型

    bash 复制代码
    #根目录
    python convert.py zh-models/7B/
  3. 将生成的fp16格式的gguf模型进行4-bit量化

    bash 复制代码
    ./quantize ./zh-models/7B/ggml-model-f16.gguf ./zh-models/7B/ggml-model-q4_0.gguf q4_0

Step 4: 加载并启动模型

到这一步其实可以用llama.cpp的加载模型方式对话了

但我用的虚拟机,性能有限,故而使用Text generation web UI 加载模型,具体如何加载建议看原文档和项目说明


windows部署Text generation web UI 环境

原项目:https://github.com/oobabooga/text-generation-webui

Step 1: 下载安装Miniconda3_py310

链接:https://repo.anaconda.com/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe

Step 2: 克隆项目到本地

bash 复制代码
git clone  https://github.com/oobabooga/text-generation-webui

Step 3: 打开Miniconda3命令行,建立新conda环境

bash 复制代码
conda create -n textgen

Step 4: 下载安装相关的python各类环境库

有github链接的必须手动下载whl,再pip安装whl的绝对位置

bash 复制代码
conda activate textgen
cd 项目位置
pip install env/bitsandbytes-0.41.1-py3-none-win_amd64.whl
pip install E:\AI\环境第三方库\auto_gptq-0.4.2+cu117-cp310-cp310-win_amd64.whl

https://github.com/jllllll/exllama/releases/download/0.0.17/exllama-0.0.17+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\环境第三方库\exllama-0.0.17+cu117-cp310-cp310-win_amd64.whl

pip install llama-cpp-python==0.1.84

https://github.com/jllllll/llama-cpp-python-cuBLAS-wheels/releases/download/textgen-webui/llama_cpp_python_cuda-0.1.84+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\环境第三方库\llama_cpp_python_cuda-0.1.84+cu117-cp310-cp310-win_amd64.whl

https://github.com/jllllll/GPTQ-for-LLaMa-CUDA/releases/download/0.1.0/gptq_for_llama-0.1.0+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\环境第三方库\gptq_for_llama-0.1.0+cu117-cp310-cp310-win_amd64.whl

https://github.com/jllllll/ctransformers-cuBLAS-wheels/releases/download/AVX2/ctransformers-0.2.25+cu117-py3-none-any.whl
pip install E:\AI\环境第三方库\ctransformers-0.2.25+cu117-py3-none-any.whl

pip install -r requirements.txt -i 换源

Step 5: 启动web服务

bash 复制代码
conda activate textgen
cd E:/AI/项目/text-generation-webui-main
python server.py

使用Text generation web UI 加载模型并进行对话

  1. 打开生成的url网址
  2. 加载本地模型
  3. 对话即可
相关推荐
lauo40 分钟前
当手机开始“编程”:荣耀Robot Phone的影像革命与ibbot青春版的AI“挖矿”之道
大数据·人工智能·chatgpt·智能手机·ai-native
下班走回家2 小时前
从 ChatGPT 到 DeepSeek:AI 对话产品的差异化竞争
人工智能·chatgpt
DS随心转APP2 小时前
Claude 导出对话多方案横向测评来袭,借助 AI 导出鸭对比各类导出工具优劣,筛选最优处理办法
人工智能·ai·chatgpt·deepseek·ai导出鸭
oscar9992 小时前
当电子表格遇上 ChatGPT:像聊天一样做数据分析
chatgpt·数据挖掘·数据分析
AI 编程助手GPT18 小时前
用 Python 做一个世界杯赛前分析脚本:以巴西 vs 摩洛哥为例
开发语言·网络·人工智能·python·chatgpt
shchojj20 小时前
ChatGPT Prompt Engineering for Developers - Iterative Prompt Development
chatgpt·prompt
Xiaofeng369320 小时前
GPT-4o国内注册保姆级教程(2026最新版):开发者高效访问与避坑实战
人工智能·chatgpt
lauo21 小时前
碳基心脏最后的堡垒——ibbot青春版:你的随身Token生产厂
大数据·人工智能·chatgpt·智能手机·ai-native
qq3621967051 天前
第三方安卓应用商店安全评测 2026:Appteka、Aptoide、APKPure 等 7 家横评
android·网络·人工智能·安全·chatgpt·智能手机
武子康1 天前
调查研究-173 MOSS-TTS 调查:开源 TTS 正在从“朗读器“走向声音生成系统
人工智能·ai·chatgpt·claude·tts·minimax