随笔--解决ubuntu虚拟环境的依赖问题

文章目录

  • [问题一:在conda虚拟环境中报错ImportError: libcupti.so.11.7:cannot open shared object file: No such file or directory](#问题一:在conda虚拟环境中报错ImportError: libcupti.so.11.7:cannot open shared object file: No such file or directory)
  • 解决步骤
  • [问题二: RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling cublasSgemmStridedBatched( handle, opa, opb, m, n, k, &alpha, a, lda, stridea, b, ldb, strideb, &beta, c, ldc, stridec, num_batches)。](#问题二: RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling cublasSgemmStridedBatched( handle, opa, opb, m, n, k, &alpha, a, lda, stridea, b, ldb, strideb, &beta, c, ldc, stridec, num_batches)。)
  • 解决方案:
  • [问题三: RuntimeError: ProcessGroupNCCL is only supported with GPUs, no GPUs found!](#问题三: RuntimeError: ProcessGroupNCCL is only supported with GPUs, no GPUs found!)
  • 解决方案

问题一:在conda虚拟环境中报错ImportError: libcupti.so.11.7:cannot open shared object file: No such file or directory

解决步骤

  1. 查询是否存在libcupti.so.11.7文件
bash 复制代码
find / -name libcupti.so.11.7
  1. 将到nvidia这步都拷贝到conda环境中
bash 复制代码
# conda 虚拟环境的路径在 cd /opt/conda/envs/你的虚拟环境的名字  下
cp -r /home/ubuntu/.local/lib/python3.8/site-packages/nvidia/ /opt/conda/envs/你的虚拟环境的名字/

问题二: RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling cublasSgemmStridedBatched( handle, opa, opb, m, n, k, &alpha, a, lda, stridea, b, ldb, strideb, &beta, c, ldc, stridec, num_batches)。

解决方案:

  1. 方法一:
bash 复制代码
pip uninstall nvidia-cublas-cu11
  1. 方法二:
bash 复制代码
 unset LD_LIBRARY_PATH

该命令作用:

unset LD_LIBRARY_PATH 是一个用于清空 Linux 或 Unix 操作系统环境变量 LD_LIBRARY_PATH 的命令。

在 Linux 或 Unix 系统中,LD_LIBRARY_PATH 是一个环境变量,用于指定共享库文件(也称为动态链接库)的搜索路径。当一个程序启动时,系统会在 LD_LIBRARY_PATH 指定的路径下搜索共享库文件。如果 LD_LIBRARY_PATH 没有被设置,系统会使用默认的共享库搜索路径。

使用 unset LD_LIBRARY_PATH 命令可以清空 LD_LIBRARY_PATH 环境变量,这意味着系统将只使用默认的共享库搜索路径。这个命令通常用于解决程序运行时由于错误的 LD_LIBRARY_PATH 设置导致的问题。

问题三: RuntimeError: ProcessGroupNCCL is only supported with GPUs, no GPUs found!

解决方案

  1. cuda版本和torch版本不匹配的问题
  2. 查看cuda版本: nvcc --version
  3. 再去这里查看对应版本并用conda命令安装。
相关推荐
小白跃升坊6 分钟前
基于1Panel的AI运维
linux·运维·人工智能·ai大模型·教学·ai agent
跃渊Yuey25 分钟前
【Linux】线程同步与互斥
linux·笔记
杨江25 分钟前
seafile docker安装说明
运维
舰长11527 分钟前
linux 实现文件共享的实现方式比较
linux·服务器·网络
好好沉淀33 分钟前
Docker开发笔记(详解)
运维·docker·容器
zmjjdank1ng42 分钟前
Linux 输出重定向
linux·运维
路由侠内网穿透.44 分钟前
本地部署智能家居集成解决方案 ESPHome 并实现外部访问( Linux 版本)
linux·运维·服务器·网络协议·智能家居
树℡独1 小时前
ns-3仿真之应用层(三)
运维·服务器·ns3
VekiSon1 小时前
Linux内核驱动——基础概念与开发环境搭建
linux·运维·服务器·c语言·arm开发
zl_dfq1 小时前
Linux 之 【进程信号】(signal、kill、raise、abort、alarm、Core Dump核心转储机制)
linux