5090NVIDIA、CUDAToolkit、cuDNN、Miniconda、PyTorch安装

一、NVIDIA驱动安装

经查询从官网下载 RTX5090驱动

1.1 驱动安装

1.1.1 运行安装文件

复制代码
bash NVIDIA-Linux-x86_64-525.147.05.run

报错

没权限

1.1.2 给文件授权

复制代码
sudo bash NVIDIA-Linux-x86_64-525.147.05.run

后显示

1.1.3 选择内核模块

选项 含义 推荐场景
NVIDIA Proprietary NVIDIA 官方专有内核模块(闭源) 绝大多数情况都选这个,稳定、性能最优、完全支持 RTX 40 系列
MIT/GPL NVIDIA 提供的开源版本内核模块(GPL 兼容) 可选,如果你希望模块完全开源并集成到 Linux 内核 tree,但 功能可能不如官方闭源版本完整,某些新功能 / GPU 特性可能不支持

1.1.4 确认安装

🔹 建议(AI / GPU 开发场景)

你做智能体开发、Docker + GPU、PyTorch / CUDA → 推荐用 .run 文件安装最新驱动(580 系)

如果你追求简单、最少干预 → Ubuntu 软件源安装 550 Long-Lived 驱动

警告


(1)什么是 32-bit compatibility libraries

  • NVIDIA 驱动默认会安装 32-bit OpenGL / Vulkan / CUDA runtime 兼容库
  • 用途:运行一些 32 位程序、老游戏、老软件
  • 现代 AI 开发 / PyTorch / CUDA / Docker GPU 完全不影响

(2)为什么出现警告

  • Ubuntu 24.04 默认是 64 位系统 ,可能没有安装 i386 架构支持

  • 安装程序找不到合适路径,所以提示:

    32-bit compatibility files will not be installed

(3)解决方法(可选)

如果你真的需要 32 位支持(通常 AI 开发不需要),可以执行:

复制代码
sudo dpkg --add-architecture i386
sudo apt update
sudo apt install libc6:i386 libgl1:i386 libgl1-mesa-glx:i386

然后重新运行 .run 文件,或者用选项指定路径:

复制代码
sudo ./NVIDIA-Linux-x86_64-580.105.08.run --compat32-libdir=/usr/lib32

(4)对 AI 开发的影响

  • 完全可以忽略这个警告
  • 不会影响:
    • PyTorch / CUDA / cuDNN
    • TensorRT
    • Docker GPU 加速
    • LLM / 智能体推理

1.1.5 选择是否注册到 DKMS


是否把 NVIDIA 内核模块注册到 DKMS(Dynamic Kernel Module Support),解释一下利弊:


(1)什么是 DKMS

  • DKMS 会在 内核升级或更换后 ,自动 重新编译 NVIDIA 驱动模块
  • 作用:保证 GPU 驱动 随内核自动更新,不需要你手动重新安装
  • 对 AI / Docker / PyTorch / CUDA 环境非常有用

(2)选项含义

选项 含义 推荐
Yes 注册到 DKMS,内核更新时自动重新编译 NVIDIA 模块 ✅ 推荐
No 不注册,需要你手动在内核升级后重新安装驱动 ❌ 不推荐

(3)环境建议

  • Ubuntu 24.04 + Kernel 6.14 + RTX 5090 系列
  • AI 开发 / Docker GPU / PyTorch / CUDA / LLM 都需要驱动稳定
  • 注册 DKMS 可以保证以后内核升级也能正常使用 NVIDIA GPU

所以选择 "Yes"


警告


这条警告是 NVIDIA .run 安装程序在提示 libglvnd EGL 配置文件无法找到安装路径


(1)什么是 libglvnd EGL vendor library

  • libglvnd = OpenGL Vendor Neutral Dispatch Library
  • 用于 管理多个 GPU 驱动的 OpenGL / EGL 调用
  • EGL 配置文件用于 图形接口初始化
  • AI / CUDA / PyTorch / Docker GPU 环境,通常 不依赖 EGL

(2)为什么会出现警告

  • 系统可能缺少开发库:

    pkg-config
    libglvnd-dev

  • 或安装程序无法找到默认路径

  • 因此提示:

    Unable to determine the path to install the libglvnd EGL vendor library config files

(3)对AI 开发影响

  • 完全可以忽略这个警告
  • PyTorch / CUDA / cuDNN / Docker GPU / LLM 推理 都不会有影响
  • 警告只影响 基于 EGL 的 OpenGL 图形程序(主要是游戏或 GUI 渲染)

1.1.6 选择是否自动修改 X 配置


这个提示是 NVIDIA .run 安装程序在问你 是否让它自动修改 X 配置文件,分析一下:


(1)什么是 nvidia-xconfig

  • nvidia-xconfig 是 NVIDIA 提供的工具
  • 功能:自动修改 /etc/X11/xorg.conf 文件 ,让 X Server 使用 NVIDIA 驱动而不是开源 nouveau 驱动
  • 备份原有配置文件,如果安装失败可以恢复

(2)选项含义

选项 含义 推荐
Yes 自动更新 X 配置文件,开机后 GUI 自动使用 NVIDIA 驱动 ✅ 推荐,尤其是桌面环境(GNOME/KDE)
No 不修改 X 配置文件,需要手动配置 ❌ 不推荐,除非你很熟悉 X 配置

(3)环境建议

  • Ubuntu 24.04 桌面环境 + RTX 5090 系列
  • AI / Docker / PyTorch / CUDA 对 X Server 可选 ,但如果希望:
    • 未来使用桌面 GUI
    • 或运行需要 OpenGL / Vulkan 的程序(可视化 / 游戏 / 可视化工具)

选择 Yes 最安全

  • 它会自动备份旧配置
  • 不需要手动修改 /etc/X11/xorg.conf

1.2 安装失败解决方法

之前一直安装不上的原因可能选错了型号之前用4090后改用5090

1.2.1 选择的MIT/GPL

特性 NVIDIA Proprietary (闭源) MIT/GPL (开源)
内核模块代码 闭源 (Legacy) 开源 (Open)
兼容性 在内核更新时,更容易出现编译失败和兼容性问题。 更稳定,更容易适应新的 Linux 内核版本。
推荐用途 较旧的显卡或需要特定 Legacy 功能的环境。 RTX 50 系列等新显卡、新的 Linux 内核。
性能 相同 相同

1.2.2 选择 5090 的驱动

之前因驱动安装失败关闭了图形化界面,恢复图形化界面

复制代码
sudo systemctl enable --now gdm3

其他工具安装

工具 作用 推荐选择
CUDA Toolkit (计算平台) NVIDIA 的并行计算平台和编程模型,是所有深度学习框架运行的基础。 必须安装
cuDNN (深度学习库) NVIDIA 深度学习 GPU 加速库,用于加速神经网络运算。 必须安装 (作为 CUDA 的一部分)
Anaconda/Miniconda (环境管理) Python 环境管理工具,用于创建和隔离不同的项目环境,避免库版本冲突。 强烈推荐安装 Miniconda (轻量版)
PyTorch/TensorFlow (深度学习框架) 构建和训练智能体模型、处理知识库的框架。 必须安装
Docker (容器化) 将整个开发环境(包括 Python, PyTorch, CUDA)打包,确保环境一致性。 必须安装 (用于生产和部署)

二、安装 CUDA Toolkit

2.1 下载 CUDA Toolkit 安装包

https://developer.nvidia.com/cuda-12-4-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=22.04&target_type=runfile_local

2.2 给文件授权运行

上传服务器-授权-运行

等待30秒后

accept

取消选中550.54.14

取消选择 Driver: 使用方向键将光标移动到 [ ] Driver 550.54.14,然后按 空格键 取消选中。需要安装 CUDA Toolkit。

保持选中 CUDA Toolkit: 确保 [X] CUDA Toolkit 12.4 及其他相关组件被选中。

安装路径/符号链接: 保持默认即可。 确认无误后,移动到 Install 选项并按 Enter 开始安装。

2.3 检查安装

检查安装是否成功

找不到命令可能由于环境变量未更新:

更新环境变量

三、安装 cuDNN

3.1 下载 cuDNN 上传解压

下载安装包上传解压(这里注意下载需要登录NVIDIA账号)

3.2 安装命令

安装步骤

四、安装miniconda

4.1 下载miniconda上传

官网地址:https://www.anaconda.com/docs/getting-started/miniconda/main

4.2 安装步骤

4.3 验证安装

验证miniconda已安装

运行 conda --version 提示 "conda:未找到命令",这说明 Miniconda 已经安装,但是当前的 shell 会话还没有加载 Miniconda 的配置。

这是因为选择了在安装时运行 conda init,但它只修改了 .bashrc 文件,而需要手动运行 source 命令来使其在当前会话中生效。

五、安装Pytorch

5.1 新建 conda 环境

新建一个conda环境基于python3.10

接受

创建完虚拟环境后进入安装pytorch

5.2 安装

5.2.1 离线下载 pytorch

https://download.pytorch.org/whl/cu121

查询查找相应的文件


5.2.2 验证安装

复制代码
python -c "import torch; print('--- PyTorch and GPU Verification ---'); print('PyTorch Version:', torch.__version__); print('CUDA Available:', torch.cuda.is_available()); print('GPU Count:', torch.cuda.device_count()); print('GPU Name:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A'); print('cuDNN Enabled:', torch.backends.cudnn.enabled); print('cuDNN Version:', torch.backends.cudnn.version()); print('Simple GPU Tensor Test:', 'Success' if torch.cuda.is_available() and torch.rand(1).cuda() is not None else 'Failed')"

报错如下

您遇到的 ImportError 错误,即 undefined symbol: iJIT_NotifyEvent ,通常是由于 PyTorch 库 在尝试加载时,找不到它所依赖的某个 系统库文件GCC 编译器库版本不匹配造成的。

这与您之前配置的 CUDA 和 cuDNN 没有直接关系,而是与 PyTorch 在 Python 环境中加载动态链接库时的依赖关系有关。

解决方案:安装 libtinfo5 和/或升级 Conda

未成功

不指定版本进行下载尝试

安装成功,进行功能验证

复制代码
python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())"

功能验证成功

相关推荐
deephub3 小时前
Scikit-Learn 1.8引入 Array API,支持 PyTorch 与 CuPy 张量的原生 GPU 加速
人工智能·pytorch·python·机器学习·scikit-learn
All The Way North-5 小时前
PyTorch MultiStepLR:指定间隔学习率衰减的原理、API、参数详解、实战
pytorch·深度学习·学习率优化算法·multisteplr算法·指定间隔学习率衰减
Wishell20156 小时前
日拱一卒之Python与matlab的内存读取区别
pytorch
此处不留情7 小时前
从零构建智能水果识别系统:数据模块深度解析
人工智能·pytorch
声声codeGrandMaster18 小时前
AI之模型提升
人工智能·pytorch·python·算法·ai
拾贰_C1 天前
【python | pytorch | scipy】scipy scikit-learn库相互依赖?
pytorch·python·scipy
拾贰_C1 天前
【python | pytorch | warehouse】python库scipy与scikit-learn库不兼容?
pytorch·python·scipy
andwhataboutit?1 天前
pytorch-CycleGAN-and-pix2pix学习
人工智能·pytorch·学习