Linux环境安装SGLang框架运行自选大模型(以Rocky9.7为例)

以下安装过程本人已验证可行,供君参看:

1、安装系统、配置网卡(/root文件夹尽量大一些)

2、装gcc和g++,直接运行gcc --version和g++ --version和有提醒安装

4、禁用nouveau,重建 initramfs 镜像(这一步至关重要,确保引导时加载新配置),重启

echo -e 'blacklist nouveau\noptions nouveau modeset=0' | sudo tee /etc/modprobe.d/blacklist-nouveau.conf

sudo dracut --force --kver $(uname -r)

sudo reboot

3、装英伟达驱动和cuda,建议用run文件,,运行以下命令后,重启

wget https://developer.download.nvidia.com/compute/cuda/13.2.0/local_installers/cuda_13.2.0_595.45.04_linux.run

sudo sh cuda_13.2.0_595.45.04_linux.run

sudo reboot

查看驱动

nvidia-smi

查看cuda版本

nvcc -V

4、安装Anaconda3,激活SGLang环境(ps:Anaconda3版本自行修改)

给安装包赋予权限(对应文件在执行上一步命令时的文件夹下)

chmod +x Anaconda3-2024.10-1-Linux-x86_64.sh

安装anaconda(安装过程一路选择yes即可,在安装路径配置时,选择默认路径即可)

./Anaconda3-2024.10-1-Linux-x86_64.sh

安装完毕后重启终端,一般会激活conda的base环境,如未激活,请使用下述命令

conda init

查看是否安装成功

conda -V

创建虚拟环境(Python≥3.10 and <3.13)

conda create -n SGLang python=3.10 -y

conda activate SGLang

5、安装SGLang推理架构及下载模型(ps:模型名称自行修改)

安装torch及其套件

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124

安装SGLang推理架构

pip install --upgrade pip

pip install sgl-kernel --force-reinstall --no-deps

pip install "sglang[all]" --find-links https://flashinfer.ai/whl/cu124/torch2.5/flashinfer/

通过git lfs+modelscope加速下载模型

apt install git git-lfs

git lfs clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B.git

6、启动模型(ps:执行指令具体参数什么意思,自行搜索)【如果看到"GET /model_info HTTP/1.1"和"POST /generate HTTP/1.1"均为"200 OK"即为模型成功运行】

python3 -m sglang.launch_server --model-path /root/DeepSeek-R1-Distill-Qwen-7B --port 30000 --mem-fraction-static 0.9 --tp 1 --trust-remote-code --host 0.0.0.0

7、推理测试(localhost可以填具体模型服务器地址)

curl -X POST http://localhost:port/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{

"model": "default",

"messages": [

{

"role": "system",

"content": "You are a helpful AI assistant"

},

{

"role": "user",

"content": "你是谁"

}

],

"temperature": 0.6,

"max_tokens": 1024

}'

8、其他可选项

可选(由于模型下载时间较长,为避免因终端连接中断导致下载失败,建议后台挂起操作,screen命令自行搜索)

apt install screen

screen -S SGLang

可选(如遇见transformers库报错,请尝试降低版本,下述版本确认可用)

pip install transformers==4.48.3

相关推荐
Elastic 中国社区官方博客2 分钟前
Elasticsearch 下采样方法:最后值采样 vs. 聚合采样
大数据·运维·elasticsearch·搜索引擎·全文检索
一个在高校打杂的8 分钟前
honeypot之opencanary(轻量化蜜罐)
linux·网络安全·网络攻击模型·安全威胁分析·策略模式
大明者省9 分钟前
Ubuntu22.04 宝塔面板与 XFCE 远程桌面端口兼容性分析
运维·服务器·数据库·笔记
s_w.h15 分钟前
【 linux 】认识make和makefile
linux·运维·bash
代码熬夜敲Q19 分钟前
Docker基础
运维·docker·容器
不怕犯错,就怕不做26 分钟前
ARM设备异常断电容易造成数据损坏,硬件如何设计
linux·驱动开发·嵌入式硬件
Harm灬小海30 分钟前
【云计算学习之路】学习Centos7系统-Linux软件包管理
linux·运维·服务器·学习·云计算·yum·rpm
caicai_xiaobai34 分钟前
Ubuntu上Git安装步骤
linux·git·ubuntu
牧子川38 分钟前
016-Function-Calling
大模型·tools·functioncalling
平行云43 分钟前
实时云渲染平台数据通道,支持3D应用文件上传下载分享无缝交互
linux·unity·云原生·ue5·gpu算力·实时云渲染·像素流送