H20服务器多卡运行有错误gpu_partition ,tmux错误

怎么修复

改 vcuda 配置:

cp -f /usr/local/lib/inais/.vcuda_config /usr/local/lib/inais/.vcuda_config.bak_$(date +%Y%m%d_%H%M%S)

printf '22586\n127.0.0.1\n' > /usr/local/lib/inais/.vcuda_config

cat /usr/local/lib/inais/.vcuda_config

启动本地 shim 服务:

source /opt/conda/etc/profile.d/conda.sh && conda activate janusdna

python /chenhaowen/hnu/mps/lora_deepseek_ocr_vision_DNA/script/rice_phenotype_benchmark/vcuda_pidmap_shim.py \

--host 127.0.0.1 \

--port 22586

在当前服务器上绕过有问题的 NCCL P2P/CUMEM 路径:

export NCCL_IB_DISABLE=1

export NCCL_SHARP_DISABLE=1

export NCCL_NET=Socket

export NCCL_P2P_DISABLE=1

export NCCL_CUMEM_ENABLE=0

验证是否是对的:

看 shim 进程是否存在

pgrep -af vcuda_pidmap_shim.py

做最小 CUDA 验证:

source /opt/conda/etc/profile.d/conda.sh && conda activate janusdna && python -u - <<'PY'

import torch

print('cuda_available', torch.cuda.is_available())

torch.cuda.set_device(0)

x = torch.zeros(1, device='cuda:0')

print('alloc_ok', x.device)

PY

tmux错误

cat > /root/.tmux.conf <<'EOF'

Start each new tmux pane/window with a clean runtime state.

This avoids inheriting stale CONDA_*/CUDA_*/NCCL_*/NVIDIA_* variables

from an older tmux server or a different container image.

set -g default-shell /bin/bash

set -g default-command "exec env -u CONDA_DEFAULT_ENV -u CONDA_EXE -u CONDA_PREFIX -u CONDA_PREFIX_1 -u CONDA_PROMPT_MODIFIER -u CONDA_PYTHON_EXE -u CONDA_SHLVL -u _CE_CONDA -u _CE_M -u LD_PRELOAD -u LD_LIBRARY_PATH -u CUDA_HOME -u CUDA_PATH -u CUDA_VERSION -u CUDA_DRIVER_VERSION -u CUDA_CACHE_DISABLE -u CUDA_VISIBLE_DEVICES -u CUDA_DEVICE_ORDER -u NCCL_VERSION -u NCCL_IB_DISABLE -u NCCL_SHARP_DISABLE -u NCCL_NET -u NCCL_P2P_DISABLE -u NCCL_CUMEM_ENABLE -u NCCL_DEBUG -u NVIDIA_VISIBLE_DEVICES -u NVIDIA_DISABLE_REQUIRE -u NVIDIA_DRIVER_CAPABILITIES -u NVIDIA_PRODUCT_NAME -u NVIDIA_PYTORCH_VERSION -u NVIDIA_BUILD_ID -u NVIDIA_REQUIRE_CUDA -u OMPI_MCA_coll_hcoll_enable /bin/bash -l"

Keep locale variables in sync so tmux treats attached clients as UTF-8.

Sync PATH so a freshly attached client can bring in the expected conda env.

set -g update-environment "DISPLAY KRB5CCNAME SSH_ASKPASS SSH_AUTH_SOCK SSH_AGENT_PID SSH_CONNECTION WINDOWID XAUTHORITY LANG LANGUAGE LC_ALL LC_CTYPE PATH"

set-environment -g LANG C.UTF-8

set-environment -g LC_ALL C.UTF-8

EOF

相关推荐
方便面不加香菜20 小时前
Linux--基础IO(一)
linux·运维·服务器
鼎讯信通1 天前
风电光缆运维提质增效:G-4000A 光缆故障追踪仪破解风场巡检难题
运维·网络·数据库
三十..1 天前
MySQL 从入门到高可用架构实战精要
运维·数据库·mysql
跨境数据猎手1 天前
大数据在电商行业的应用
大数据·运维·爬虫
linyanRPA1 天前
影刀RPA店群自动化实战:多店铺活动自动报名与促销管理架构设计
运维·自动化·办公自动化·rpa·python脚本·爬虫自动化·店群自动化
mounter6251 天前
现代 Linux 内存管理的演进与变革:从传统 LRU 到多代架构 MGLRU
linux·服务器·kernel
会Tk矩阵群控的小木1 天前
安卓群控系统对于游戏工作室实战教程
android·运维·游戏·adb·开源软件·个人开发
赵渝强老师1 天前
【赵渝强老师】Kubernetes(K8s)中的金丝雀升级
linux·docker·云原生·容器·kubernetes
佛山个人技术开发1 天前
GitCode SSH连接配置教程
运维·ssh·gitcode
Qt程序员1 天前
Linux RCU 原理与应用
linux·c++·内核·linux内核·rcu