docker离线部署gpt-oss-20b流程,从下载到安装再到可以使用

背景:内网环境使用大模型前的准备
联网

  • windows系统我选择安装docker desktop

  • 安装好后,需要跟着docker destop提示 下载子系统linux

  • docker hub中搜索可用镜像

  • ollama
shell 复制代码
# 1. 下载 Docker 镜像(需联网)
docker pull ollama/ollama

# 2. 导出镜像为离线包
docker save ollama/ollama -o ollama-image.tar
  • 大模型拉取到ollama容器中
bash 复制代码
# 1. 确保模型数据在容器内部(不在卷中)
# 重新运行容器,不使用卷挂载
docker run -d --name ollama-no-volume ollama/ollama

# 2. 在这个容器中拉取模型
docker exec -it ollama-no-volume ollama pull gpt-oss:20b

# 3. 提交这个容器
docker commit ollama-no-volume gpt-oss-complete:latest

# 4. 保存镜像(这次应该包含模型数据)
docker save gpt-oss-complete:latest -o gpt-oss-complete.tar
  • 命令执行截图
  • 离线
bash 复制代码
# 1. 传输文件到离线服务器
scp ollama-image.tar user@offline-server:/data
scp gpt-oss-20b-model.tar user@offline-server:/data

# 2. 加载 Docker 镜像
docker load -i /data/ollama-image.tar

# 3. 导入模型
mkdir -p /mnt/models
docker run -it -v /mnt/models:/root/.ollama ollama/ollama ollama import /data/gpt-oss-20b-model.tar

# 4. 启动服务(带 GPU 支持)
docker run -d \
  --name ollama_gpt \
  --gpus all \
  -v /mnt/models:/root/.ollama \
  -p 11434:11434 \
  ollama/ollama
  • 验证服务
bash 复制代码
# 1. 检查容器状态
docker logs ollama_gpt | grep "model loaded"

# 2. 发送测试请求(JSON 格式)
curl -s http://localhost:11434/api/generate -d '{
  "model": "gpt-oss:20b",
  "prompt": "Docker离线部署的优势",
  "stream": false
}' | jq .response

# 预期输出:
# "Docker离线部署可在隔离环境中运行模型,无需依赖外部网络..."
  • 资源优化配置根据设备显存调整 GPU 层数:
bash 复制代码
# 高端 GPU(40GB+)
docker exec ollama_gpt ollama run gpt-oss:20b --gpu-layers 35

# 中端 GPU(24GB)
docker exec ollama_gpt ollama run gpt-oss:20b --gpu-layers 20

# 纯 CPU 模式(量化版本)
docker exec ollama_gpt ollama run gpt-oss:20b-q4_0
  • 常见问题排查

拓展

  • windows desktop占用c盘空间,迁移到其他盘符
  • 配置docker desktop阿里镜像加速器
    • 登录你的阿里云账号 ,访问这个链接, 将如下内容加到配置中
json 复制代码
{
  "registry-mirrors": ["https://1i***n.mirror.aliyuncs.com"]
}
相关推荐
是火云哦27 分钟前
打包你的开发环境:Docker 从入门到上瘾
运维·docker·容器
小明_GLC42 分钟前
关于租用阿里云服务器拉取Docker镜像的问题
docker
今晚打佬虎1 小时前
精准阻断 Docker 容器映射端口:流量路径诊断与 iptables 配置
运维·docker·容器
那年一路北1 小时前
基于 Maven + Docker 的 WebApp 打包与部署
docker·maven·web app
世优科技虚拟人1 小时前
从AI数字人讲解到MR数字人导览,数字人厂商革新文旅新服务
人工智能·大模型·数字人·智能交互
yuezhilangniao1 小时前
K8s优化-大规模集群优化-大规模K8S优化-性能优化速查表-优化顺序-先阻塞瓶颈再性能瓶颈
容器·性能优化·kubernetes
阡陌..1 小时前
Linux下用docker调用pytorch-无法检测到cuda问题
linux·pytorch·docker
小哈里1 小时前
【计算】Ray框架介绍,AI基础设施之“通用”分布式计算(跨场景,门槛低,大规模生产,单机->集群->推理一站式)
人工智能·大模型·llm·分布式计算·ray
KubeSphere 云原生2 小时前
在 KubeSphere 上运行 Moltbot(Clawdbot):自托管 AI 助手的云原生实践
docker·云原生·容器
AI 菌2 小时前
DeepSeek-OCR v2 解读
人工智能·大模型·ocr·多模态