第十一篇-Tesla P40+Text-Generation-Webui

部署环境

系统:CentOS-7
CPU: 14C28T
显卡:Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26

介绍

简单好用(当然速度不是最快的),
支持多种方式加载模型,transformers, llama.cpp, ExLlama, AutoGPTQ, GPTQ-for-LLaMa, ctransformers
支持多类模型, Llama-2-chat, Alpaca, Vicuna, WizardLM, StableLM等
图形化界面聊天,微调

下载模型

https://huggingface.co/lmsys/vicuna-7b-v1.5

一个一个下载,文件下载比较耗时,可以使用浏览器下载,我用的是QQ浏览器,多点多试几次

创建虚拟环境

conda create -n textgen python=3.10

conda activate textgen

git clone https://github.com/oobabooga/text-generation-webui
cd text-generation-webui

pip install -r requirements.txt  -i https://pypi.tuna.tsinghua.edu.cn/simple

这里的安装需要访问github,注意自己网络可以访问github,

如果不能或者超时请重试

或者改用相应国内github镜像

移动模型

把下载好的模型文件夹放到models目录下

通过不同文件夹区别模型

[root@ai-server ~]# cd /opt/ai-server/text-generation-webui/models/
[root@ai-server models]# ll -h
total 8.0K
-rw-r--r--. 1 root root 7.3K Aug 15 10:47 config.yaml
-rw-r--r--. 1 root root    0 Aug 15 10:47 place-your-models-here.txt
lrwxrwxrwx. 1 root root   30 Aug 16 09:43 Vicuna-13b-v1.3.0-GPTQ -> /models/Vicuna-13b-v1.3.0-GPTQ
lrwxrwxrwx. 1 root root   28 Aug 16 09:43 Vicuna-13b-v1.5-GGML -> /models/Vicuna-13b-v1.5-GGML
lrwxrwxrwx. 1 root root   23 Aug 16 09:43 Vicuna-33B-GPTQ -> /models/Vicuna-33B-GPTQ
lrwxrwxrwx. 1 root root   27 Aug 17 10:43 Vicuna-7B-v1.5-GPTQ -> /models/Vicuna-7B-v1.5-GPTQ
lrwxrwxrwx. 1 root root   32 Aug 17 10:00 WizardCoder-15B-1.0-GPTQ -> /models/WizardCoder-15B-1.0-GPTQ
lrwxrwxrwx. 1 root root   30 Aug 17 10:00 WizardLM-13B-V1.2-GPTQ -> /models/WizardLM-13B-V1.2-GPTQ

可以创建软连接

ln -s /models/Vicuna-7B-v1.5-GPTQ /opt/ai-server/text-generation-webui/models/Vicuna-7B-v1.5-GPTQ
ln -s 已存在的文件夹	新链接文件夹

启动

python server.py --listen --listen-host 192.168.31.232 --listen-port 7860

访问配置

http://192.168.31.232:7860

配置模型,点击Model
1、选择第一个下拉框,选择你要加载的模型
2、可以选择Model loader使用想要的加载器加载,有多种可以选择,根据你下载的模型格式选择相应的
3、点击Load加载模型
    Loading Vicuna-7B-v1.5-GPTQ...
    Successfully loaded Vicuna-7B-v1.5-GPTQ
    说明加载成功
配置参数,点击Parameters
    可以配置许多参数,比如max_new_tokens
可是体验,点击Chat
    在input输入你的内容
    点击Generate等待回答

速度性能

在启动服务控制台会打印回答速度
例如:
    Output generated in 19.92 seconds (1.10 tokens/s, 22 tokens, context 43, seed 1673505503)
Tesla P40速度还是非常慢的,建议使用其他性能更好的显卡

参考

  1. https://github.com/oobabooga/text-generation-webui

问题解决

  1. 在安装text-generation-webui时如果出现cmake,gcc,g++等问题,考虑升级gcc,g++版本
    升级

    wget --no-check-certificate https://copr.fedorainfracloud.org/coprs/mayeut/devtoolset-8/repo/epel-6/mayeut-devtoolset-8-epel-6.repo -O /etc/yum.repos.d/devtoolset-8.repo

    yum makecache

    yum -y install devtoolset-8-gcc devtoolset-8-gcc-c++ devtoolset-8-binutils

    scl enable devtoolset-8 bash

    gcc -v

    g++ -v

相关推荐
Power20246664 分钟前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k7 分钟前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫13 分钟前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法
沉下心来学鲁班27 分钟前
复现LLM:带你从零认识语言模型
人工智能·语言模型
数据猎手小k27 分钟前
AndroidLab:一个系统化的Android代理框架,包含操作环境和可复现的基准测试,支持大型语言模型和多模态模型。
android·人工智能·机器学习·语言模型
YRr YRr36 分钟前
深度学习:循环神经网络(RNN)详解
人工智能·rnn·深度学习
sp_fyf_20241 小时前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01
人工智能·深度学习·神经网络·算法·机器学习·语言模型·数据挖掘
多吃轻食1 小时前
大模型微调技术 --> 脉络
人工智能·深度学习·神经网络·自然语言处理·embedding
北京搜维尔科技有限公司2 小时前
搜维尔科技:【应用】Xsens在荷兰车辆管理局人体工程学评估中的应用
人工智能·安全
说私域2 小时前
基于开源 AI 智能名片 S2B2C 商城小程序的视频号交易小程序优化研究
人工智能·小程序·零售