docker搭建ray集群

1. 安装docker 已安装过docker 没安装流程

启动 Docker 服务

bash 复制代码
sudo systemctl start docker
sudo systemctl enable docker   # 设置开机即启动docker

验证 Docker 是否安装成功

bash 复制代码
docker --version

2. 部署ray

sh 复制代码
# 先停止docker服务
systemctl stop docker   
# 编辑 Docker 的配置文件  更改docker 镜像保存的路径 以防默认目录存储空间不足
 vim /etc/docker/daemon.json
{
  "data-root": "/data/docker"  # 自己存储空间大的目录
}
# 再次启动docker服务 使上面的配置文件生效
systemctl start docker   
# 拉取镜像到本地
docker pull **镜像名称:版本** 
# 查看镜像
docker images
 # --network host参数 使docker环境共享宿主机IP
 # -v  参数使docker环境共享宿主机挂载目录
 # tail -f /dev/null 参数  挂起docker  使其不中断
docker run -d --name **docker环境名称 自命名即可** --network host -v /mnt1:/mnt1 -v /mnt2:/mnt2 -v /data:/data -v /mnt3:/mnt3 **镜像名称:版本** tail -f /dev/null
# 查看docker环境列表
docker ps
#进入docker环境  执行任务
docker exec -it **自命名的docker环境名称** /bin/bash 
# 退出docker环境
exit  
# 停止容器
docker stop ailab-data-pipelinev3   
 # 删除已停止的容器
docker rm ailab-data-pipelinev3    
# 查看ray版本   所有机器ray版本应保持一致  否则集群不能使用
ray --version
# head节点启动命令
ray start --head --port=6379 --dashboard-host=0.0.0.0 --dashboard-port=8265  --num-cpus 96
#每个work节点启动ray服务命令   请替换IP和--num-cpus数目 --num-cpus 可以是nproc的值
ray start --address='127.0.0.0:6379' --num-cpus 96    
ray start --address='127.0.0.0:6379' --num-cpus 32
# 提交任务命令
ray job submit --working-dir ./ray_code -- python3 ray.py
相关推荐
Alsn864 小时前
等待学习-学习目录:Docker 容器安全攻防
学习·安全·docker
2601_961875246 小时前
决战申论100题2026|最新|范文
linux·容器·centos·debian·ssh·fabric·vagrant
java_cj6 小时前
深入kube-apiserver认证机制:从Bearer Token到mTLS的完整认证链解析
linux·运维·服务器·云原生·容器·kubernetes
程序员老赵7 小时前
服务器没有桌面?Docker 跑个 Chrome,浏览器就能远程用
docker·容器·devops
杨浦老苏7 小时前
轻量级Docker仪表板Servedash
运维·docker·监控·群晖·仪表板
正经教主7 小时前
【docker基础】 第八周:容器监控与应用更新策略
运维·docker·容器
kiros_wang8 小时前
Docker 使用完整指南
运维·docker·容器
正经教主8 小时前
【docker基础】第九周:Docker安全与镜像优化
运维·docker·容器
CodeStats10 小时前
【虚拟机】 从 CPU 指令到虚拟机隔离:虚拟机就是一个“模拟了完整硬件的普通进程”
java·docker
ai产品老杨11 小时前
突破安防碎片化:基于 Docker 与边缘计算的 AI 视频智能化中台,如何通过 GB28181/RTSP 统一接入与全套源码交付实现二次开发自由?
人工智能·docker·边缘计算