大模型服务:个人工作学习中关于模型部署、访问等常用资源的整理

【202601更新】记录大模型推理服务部署和使用过程中的一些资源,包括但不限于部署环境、部署框架常用优化、模型调用、多模态对话模型、多模态向量模型等(非特殊说明,均为Linux环境、Nvidia显卡)

模型部署环境

  • Nvidia显卡、Docker部署环境:Ubuntu Nvidia Docker单机多卡环境配置

  • CUDA安装与更新:cuda 历史发布版本及安装cuda版本与显卡驱动对应关系

    • CUDA卸载

      bash 复制代码
      apt-get --purge remove "*cuda*" "*cublas*" "*cufft*" "*curand*" "*cusolver*" "*cusparse*" "*npp*" "*nvjpeg*" "nsight*" "nvidia-cuda-toolkit"
      apt-get autoremove
    • CUDA安装

      bash 复制代码
      chmod +x cuda_13.0.0_580.65.06_linux.run
      sudo ./cuda_13.0.0_580.65.06_linux.run \
          --toolkit \
          --silent \
          --override \
          --no-drm \
          --no-man-page \
          --toolkitpath=/usr/local/cuda-13.0
    • CUDA安装确认

      bash 复制代码
      # 检查安装
      nvcc --version  # 应显示 13.0
      nvidia-smi      # 查看GPU状态
      ls -la /usr/local/cuda  # 确认软链接

      注意 : 如果需要是用NVIDIA Docker,还需要重新配置,安装可参考第一条Nvidia、Docker部署环境里面的内容

  • Nvidia安装与更新:Nvida各显卡驱动下载,安装可参考第一条Nvidia、Docker部署环境里面的内容

模型下载&服务

模型下载

  • 国内外常用的模型下载平台
    • Modelscope,阿里维护,活跃度高,模型覆盖度高且范围广,国内首推使用

      bash 复制代码
      下载方式:推荐git lfs下载方式,大文件下载友好,模型库搜到相关模型,点击进去偏右上角'下载模型'
      首推下载方式,git lfs  + nohup
      比如下载qwen3-vl-8B-instruct模型:
      第一步:GIT_LFS_SKIP_SMUDGE=1 git clone https://www.modelscope.cn/Qwen/Qwen3-VL-8B-Instruct.git
      第二步:进入Qwen3-VL-8B-Instruct目录,先执行:git lfs pull --include='*.json',下载配置文件
      第三步:下载模型权重文件,可使用nohup命令,也可不使用,不使用的命令: git lfs pull --inlcude='*.safetensors'
    • Hugginface,世界级更新,国内外一些不常见模型在此均能找到,国内访问&下载受限

模型服务

模型部署(vLLM)

注意文本模型和多模态模型部署存在一定差距,大部分参数都相同,但有自己独特参数,建议多看vLLM官方文档

  • 文本模型部署示例(http版,https版不记录)
bash 复制代码
docker run -d --runtime nvidia --gpus 4 --ipc=host -p 8000:8000 -v /root:/root --name=ds_r1_32b vllm vllm-openai:v0.11.0 --model /root/models/ds_r1_32b -instruct --trust-remote-code --served-model-name ds_r1_32b --max_num_seqs 128 --tensor-parallel-size 4 --gpu_memory_utilization 0.95  --no-enforce-eager --disable-custom-all-reduce  --compilation-config '{"level": 3, "cudagraph_capture_sizes": [1, 5, 20]}' --enable-prefix-caching  --enable-chunked-prefill --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072 --reasoning-parser deepseek_r1 --enable-auto-tool-choice --tool-call-parser hermes 
  • 多模态模型部署示例

模型访问

首推OpenAI SDK调用大模型服务,下面是一个示例,注意后面的备注:

python 复制代码
from openai import OpenAI

API_KEY=xxx
BASE_URL=xxx
MODEL_NAME=xxx

client = OpenAI(
    api_key=API_KEY,
    base_url=BASE_URL,
)

instruct = "今天天气怎么样"
response = client.chat.completions.create(
    model=MODEL_NAME,
    messages=[
                {"role": "user", "content": instruct }
            ],
    temperature=0.01,
    max_tokens=2048,
)
print(response)
print(response.choices[0].message.content)
print(f"【usage】: {response.usage}")

注意:

  • 控制qwen模型的思考模式: extra_body={"chat_template_kwargs": {"enable_thinking": False}} # qwen3开关模式

  • 控制gpt-oss模型的思考模式:extra_body={"reasoning_effort": "low"}, # gpt-oss 开关模式

相关推荐
雪碧聊技术3 天前
3.大模型使用
大模型调用·大模型部署
A尘埃22 天前
大模型部署方式(本地化部署+云端部署+混合部署+边缘段部署)
语言模型·大模型部署
打不了嗝 ᥬ᭄25 天前
远控软件实测网易UU远程:免费无广,4K高刷体验碾压付费款
大模型服务
猫先生Mr.Mao3 个月前
2025年10月AGI月评|OmniNWM/X-VLA/DreamOmni2等6大开源项目:自动驾驶、机器人、文档智能的“技术底座”全解析
人工智能·机器人·大模型·自动驾驶·agi·大模型部署·分布式推理框架
余衫马4 个月前
llama.cpp:本地大模型推理的高性能 C++ 框架
c++·人工智能·llm·llama·大模型部署
ShiMetaPi4 个月前
【ShiMetaPi】边缘计算高并发视频流AI分析应用:BM1684X算力盒子上的ResNet部署指南
resnet·ai大模型·大模型部署·bm1684x·图片ai
汀、人工智能6 个月前
AI-Compass宝藏资源库:构建最全面的AI学习与实践生态,服务AI全群体
rlhf·大模型微调·大模型部署·大模型量化技术
AAA小肥杨10 个月前
2025人工智能AI新突破:PINN内嵌物理神经网络火了
人工智能·深度学习·神经网络·ai·大模型部署
阿色树新风1 年前
〖大系统 观数智〗: 油气大模型部署应用策略讨论
大模型部署·大系统观·全息脑图