Ubuntu 单机多卡部署脚本: vLLM + DeepSeek 70B

部署脚本:Ubuntu + vLLM + DeepSeek 70B

执行前请确保:1. 系统为 Ubuntu 20.04/22.04 2. 拥有NVIDIA显卡(显存≥24G)

保存两个文件 1 init.sh 初始化 2、test.sh 测试

init.sh

复制代码
#!/bin/bash
# 系统更新与基础依赖

sudo apt update && sudo apt upgrade -y

sudo apt install -y build-essential python3-pip curl git wget

# NVIDIA驱动安装(需重启)

#sudo add-apt-repository ppa:graphics-drivers/ppa -y

#sudo apt update

#sudo apt install -y nvidia-driver-550-server

echo "请手动重启系统后再次执行本脚本!"

echo "sudo reboot "
exit 0  # 首次执行到此退出 

---- 以下为重启后执行的第二部分 ----

#test.sh

复制代码
#!/bin/bash
set -e
set -o pipefail

# 模型下载示例(替换为实际模型ID)
MODEL_ID="deepseek-ai/DeepSeek-R1-Distill-Llama-70B"
python - <<EOF
from modelscope import snapshot_download
snapshot_download('$MODEL_ID', cache_dir='./models')
EOF

# 启动服务
vllm serve  ./models/$MODEL_ID  --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --port 6006  --max-model-len 8192 &
SERVER_PID=$!
echo "Serve PID $SERVER_PID"
# 检查 PID 和端口的函数
check_status() {
    # 检查 PID 是否存在
    if [[ -z "$SERVER_PID" ]]; then
        echo "错误:SERVER_PID未定义"
        exit 1
    fi

    if ! kill -0 $SERVER_PID > /dev/null 2>&1; then
        echo "程序异常退出"
        exit 1
    fi
   sleep 3
    # 检查端口 6006 是否在使用(注意脚本中使用的是6006,而非8000)
    if ss -tuln | grep -q ':6006 '; then
        echo "服务已就绪"
        curl -i -k -X POST "http://localhost:6006/v1/chat/completions"  -H "Content-Type: application/json"  --data '{ "model": "/pde_ai/ssd_models/llm/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", "Max_tokens": 1024, "Temperature": 0, "messages": [ { "role": "user", "content": "中国的首都在哪里?" } ] }'

        echo "退出服务 kill  $SERVER_PID"
        sleep 3
        kill  $SERVER_PID

        return 0
    else
        echo "服务未就绪"
        return 1
    fi
}

# 等服务成功后测试一下
while true; do
    if check_status; then
        sleep 1
    else
        echo "程序异常退出"
        exit 1
    fi
done

保存完后

chmod +x *.sh 设置为可执行

第一次也只要一次运行 init.sh 后重启服务器

后面测试 只要 test.sh ,test.sh 第一次需要下载模型会慢一些.

相关推荐
试着2 分钟前
【投资学习】腾讯控股(0700.HK)
大数据·人工智能·业界资讯·腾讯
合合技术团队7 分钟前
论文解读-潜在思维链推理的全面综述
大数据·人工智能·深度学习·大模型
数据智研10 分钟前
【数据分享】浙江统计年鉴(1984-2024)
大数据·人工智能
数智研发说13 分钟前
智汇电器携手鼎捷PLM:从“制造”迈向“智造”,构建高效协同研发新范式
大数据·人工智能·设计模式·重构·制造·设计规范
SEO_juper33 分钟前
解决根本问题:确保网站被搜索引擎收录与索引的完整指南
数据库·搜索引擎·seo·数字营销
Elastic 中国社区官方博客37 分钟前
Elastic 与 Accenture 在 GenAI 数据准备方面的合作
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·aws
五度易链-区域产业数字化管理平台1 小时前
数据要素化落地实战:从120TB数据集到AI中台,技术如何驱动价值闭环
大数据
minhuan1 小时前
大模型应用:大模型 MapReduce 全解析:核心概念、中文语料示例实现.12
大数据·mapreduce·传统mapreduce·分布式mapreduce
TDengine (老段)1 小时前
TDengine 统计函数 VARIANCE 用户手册
大数据·数据库·物联网·时序数据库·tdengine·涛思数据
Hello.Reader1 小时前
Flink SQL 从本地安装到跑通第一条流式 SQL
大数据·sql·flink