如何多机复用 conda 环境

跨机器 Python & CUDA 环境适配教程

场景说明

  • 痛点:在机器 A 安装的环境(如 Docker 内部或特定服务器),换到机器 B 后,由于宿主机 CUDA 路径不同或缺失,导致 DeepSpeed/Transformers 报错。

  • 核心方案:环境自包含化。将 CUDA 编译器(nvcc)直接装入 Conda,实现"只要能挂载硬盘,环境就能跑"。

第一步:定位并修复 Conda 环境入口

当你在新机器上使用共享存储(如 NAS/NFS)中的 Conda 时,首先要确保能正确调用 conda 命令。

  1. 修改 ~/.bashrc:
    确保你的 Conda 初始化路径指向共享盘中的位置,可以用 which conda 查看位置:
python 复制代码
# 示例:根据你的实际 miniconda 路径修改
export PATH="/mnt/xxx/miniconda3/bin:$PATH"
source /audio-storage/liujie/miniconda3/etc/profile.d/conda.sh
  1. 刷新配置:
python 复制代码
source ~/.bashrc

第二步:环境内 CUDA 检查与"局部重装"

不要依赖 /usr/local/cuda,我们要检查 Conda 环境内部是否具备编译能力。

  1. 激活你的目标环境:
python 复制代码
conda activate avo-speech
  1. 检查 nvcc (CUDA 编译器):
python 复制代码
which nvcc
  1. 如果返回为空(Command not found),执行"环境内重装":
    此步骤会将编译器安装到该 Conda 环境的 bin/ 目录下:
python 复制代码
conda install -c nvidia cuda-nvcc cuda-runtime cuda-toolkit -y

第三步:动态路径适配(核心适配点)

再次检查,

确认 nvcc 的绝对路径:

python 复制代码
which nvcc

获取的路径即下面的 CUDA_HOME 路径,或者叫 CONDA_PREFIX 路径

为了让 DeepSpeed 这种"死脑筋"动态找到正确的编译器,需要将 CUDA_HOME 指向当前的 Conda 环境。

  1. 手动添加环境变量并刷新(临时生效):
python 复制代码
export CUDA_HOME=$CONDA_PREFIX
export PATH=$CUDA_HOME/bin:$PATH
export LD_LIBRARY_PATH=$CUDA_HOME/lib:$LD_LIBRARY_PATH
  1. 自动化适配(推荐,一劳永逸):
    在 Conda 环境激活时自动设置这些变量。修改 ~/.bashrc:
python 复制代码
export CUDA_HOME=$CONDA_PREFIX
export PATH=$CUDA_HOME/bin:$PATH
export LD_LIBRARY_PATH=$CUDA_HOME/lib:$LD_LIBRARY_PATH

✅ 最终验证

执行以下命令,如果输出正确,适配即告成功:

nvcc -V:应显示 CUDA 版本且路径在 miniconda3/envs/... 下。

python -c "import torch; print(torch.cuda.is_available())":应返回 True。

推荐关注

笔者AI行业算法资深从业者,日常分享AI算法和技术实践、趋势,干货多多,推荐关注 wechat Jae.Log

相关推荐
zhangfeng11336 小时前
htc 中minconda 明明安装了 Python 3.10显示 python 3.8 因为 `conda activate` 没有真正切换成功
开发语言·python·conda
H Journey1 天前
python包和项目管理工具uv、conda介绍
python·conda·uv
hyunbar4 天前
卸载 conda(太大) 安装 miniconda
conda
索西引擎4 天前
【LangChain 1.0】环境搭建指南:从 conda 到 uv 的现代化 Python 工程实践
python·langchain·conda
charlee445 天前
《GIS基础原理与技术实践》配套案例(Python版)
python·conda·numpy·gis·环境配置
Will_Ye5 天前
Ubuntu中pip 缓存和conda的缓存路径修改
缓存·conda·pip
一只积极向上的小咸鱼5 天前
Conda 环境迁移说明
conda
fengchengwu20125 天前
Conda 虚拟环境操作手册:从入门到精通
python·conda
威尔逊·柏斯科·希伯理5 天前
机器学习第一天(共12天)
人工智能·python·机器学习·conda·numpy·pandas·matplotlib