5090NVIDIA、CUDAToolkit、cuDNN、Miniconda、PyTorch安装

一、NVIDIA驱动安装

经查询从官网下载 RTX5090驱动

1.1 驱动安装

1.1.1 运行安装文件

复制代码

bash NVIDIA-Linux-x86_64-525.147.05.run

报错

没权限

1.1.2 给文件授权

复制代码

sudo bash NVIDIA-Linux-x86_64-525.147.05.run

后显示

1.1.3 选择内核模块

选项	含义	推荐场景
NVIDIA Proprietary	NVIDIA 官方专有内核模块（闭源）	绝大多数情况都选这个，稳定、性能最优、完全支持 RTX 40 系列
MIT/GPL	NVIDIA 提供的开源版本内核模块（GPL 兼容）	可选，如果你希望模块完全开源并集成到 Linux 内核 tree，但功能可能不如官方闭源版本完整，某些新功能 / GPU 特性可能不支持

1.1.4 确认安装

🔹 建议（AI / GPU 开发场景）

你做智能体开发、Docker + GPU、PyTorch / CUDA → 推荐用 .run 文件安装最新驱动（580 系）

如果你追求简单、最少干预 → Ubuntu 软件源安装 550 Long-Lived 驱动

警告

（1）什么是 32-bit compatibility libraries

NVIDIA 驱动默认会安装 32-bit OpenGL / Vulkan / CUDA runtime 兼容库
用途：运行一些 32 位程序、老游戏、老软件
对 现代 AI 开发 / PyTorch / CUDA / Docker GPU 完全不影响

（2）为什么出现警告

Ubuntu 24.04 默认是 64 位系统 ，可能没有安装 i386 架构支持
安装程序找不到合适路径，所以提示：

32-bit compatibility files will not be installed

（3）解决方法（可选）

如果你真的需要 32 位支持（通常 AI 开发不需要），可以执行：

复制代码

sudo dpkg --add-architecture i386
sudo apt update
sudo apt install libc6:i386 libgl1:i386 libgl1-mesa-glx:i386

然后重新运行 .run 文件，或者用选项指定路径：

复制代码

sudo ./NVIDIA-Linux-x86_64-580.105.08.run --compat32-libdir=/usr/lib32

（4）对 AI 开发的影响

完全可以忽略这个警告
不会影响：
- PyTorch / CUDA / cuDNN
- TensorRT
- Docker GPU 加速
- LLM / 智能体推理

1.1.5 选择是否注册到 DKMS

是否把 NVIDIA 内核模块注册到 DKMS（Dynamic Kernel Module Support），解释一下利弊：

（1）什么是 DKMS

DKMS 会在 内核升级或更换后 ，自动 重新编译 NVIDIA 驱动模块
作用：保证 GPU 驱动 随内核自动更新，不需要你手动重新安装
对 AI / Docker / PyTorch / CUDA 环境非常有用

（2）选项含义

选项	含义	推荐
Yes	注册到 DKMS，内核更新时自动重新编译 NVIDIA 模块	✅ 推荐
No	不注册，需要你手动在内核升级后重新安装驱动	❌ 不推荐

（3）环境建议

在 Ubuntu 24.04 + Kernel 6.14 + RTX 5090 系列
AI 开发 / Docker GPU / PyTorch / CUDA / LLM 都需要驱动稳定
注册 DKMS 可以保证以后内核升级也能正常使用 NVIDIA GPU

所以选择 "Yes"

警告

这条警告是 NVIDIA .run 安装程序在提示 libglvnd EGL 配置文件无法找到安装路径。

（1）什么是 libglvnd EGL vendor library

libglvnd = OpenGL Vendor Neutral Dispatch Library
用于 管理多个 GPU 驱动的 OpenGL / EGL 调用
EGL 配置文件用于 图形接口初始化
对 AI / CUDA / PyTorch / Docker GPU 环境，通常 不依赖 EGL

（2）为什么会出现警告

系统可能缺少开发库：

pkg-config
libglvnd-dev
或安装程序无法找到默认路径
因此提示：

Unable to determine the path to install the libglvnd EGL vendor library config files

（3）对AI 开发影响

完全可以忽略这个警告
对 PyTorch / CUDA / cuDNN / Docker GPU / LLM 推理 都不会有影响
警告只影响 基于 EGL 的 OpenGL 图形程序（主要是游戏或 GUI 渲染）

1.1.6 选择是否自动修改 X 配置

这个提示是 NVIDIA .run 安装程序在问你 是否让它自动修改 X 配置文件，分析一下：

（1）什么是 nvidia-xconfig

nvidia-xconfig 是 NVIDIA 提供的工具
功能：自动修改 /etc/X11/xorg.conf 文件 ，让 X Server 使用 NVIDIA 驱动而不是开源 nouveau 驱动
会 备份原有配置文件，如果安装失败可以恢复

（2）选项含义

选项	含义	推荐
Yes	自动更新 X 配置文件，开机后 GUI 自动使用 NVIDIA 驱动	✅ 推荐，尤其是桌面环境（GNOME/KDE）
No	不修改 X 配置文件，需要手动配置	❌ 不推荐，除非你很熟悉 X 配置

（3）环境建议

Ubuntu 24.04 桌面环境 + RTX 5090 系列
AI / Docker / PyTorch / CUDA 对 X Server 可选 ，但如果希望：
- 未来使用桌面 GUI
- 或运行需要 OpenGL / Vulkan 的程序（可视化 / 游戏 / 可视化工具）

选择 Yes 最安全

它会自动备份旧配置
不需要手动修改 /etc/X11/xorg.conf

1.2 安装失败解决方法

之前一直安装不上的原因可能选错了型号之前用4090后改用5090

1.2.1 选择的MIT/GPL

特性	NVIDIA Proprietary (闭源)	MIT/GPL (开源)
内核模块代码	闭源 (Legacy)	开源 (Open)
兼容性	在内核更新时，更容易出现编译失败和兼容性问题。	更稳定，更容易适应新的 Linux 内核版本。
推荐用途	较旧的显卡或需要特定 Legacy 功能的环境。	RTX 50 系列等新显卡、新的 Linux 内核。
性能	相同	相同

1.2.2 选择 5090 的驱动

之前因驱动安装失败关闭了图形化界面，恢复图形化界面

复制代码

sudo systemctl enable --now gdm3

其他工具安装

工具	作用	推荐选择
CUDA Toolkit (计算平台)	NVIDIA 的并行计算平台和编程模型，是所有深度学习框架运行的基础。	必须安装
cuDNN (深度学习库)	NVIDIA 深度学习 GPU 加速库，用于加速神经网络运算。	必须安装 (作为 CUDA 的一部分)
Anaconda/Miniconda (环境管理)	Python 环境管理工具，用于创建和隔离不同的项目环境，避免库版本冲突。	强烈推荐安装 Miniconda (轻量版)
PyTorch/TensorFlow (深度学习框架)	构建和训练智能体模型、处理知识库的框架。	必须安装
Docker (容器化)	将整个开发环境（包括 Python, PyTorch, CUDA）打包，确保环境一致性。	必须安装 (用于生产和部署)

二、安装 CUDA Toolkit

2.1 下载 CUDA Toolkit 安装包

https://developer.nvidia.com/cuda-12-4-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=22.04&target_type=runfile_local

2.2 给文件授权运行

上传服务器-授权-运行

等待30秒后

取消选中550.54.14

• 取消选择 Driver： 使用方向键将光标移动到 [ ] Driver 550.54.14，然后按 空格键 取消选中。需要安装 CUDA Toolkit。

• 保持选中 CUDA Toolkit： 确保 [X] CUDA Toolkit 12.4 及其他相关组件被选中。

• 安装路径/符号链接： 保持默认即可。确认无误后，移动到 Install 选项并按 Enter 开始安装。

2.3 检查安装

检查安装是否成功

找不到命令可能由于环境变量未更新：

更新环境变量

三、安装 cuDNN

3.1 下载 cuDNN 上传解压

下载安装包上传解压（这里注意下载需要登录NVIDIA账号）

3.2 安装命令

安装步骤

四、安装miniconda

4.1 下载miniconda上传

官网地址：https://www.anaconda.com/docs/getting-started/miniconda/main

4.2 安装步骤

4.3 验证安装

验证miniconda已安装

运行 conda --version 提示 "conda：未找到命令"，这说明 Miniconda 已经安装，但是当前的 shell 会话还没有加载 Miniconda 的配置。

这是因为选择了在安装时运行 conda init，但它只修改了 .bashrc 文件，而需要手动运行 source 命令来使其在当前会话中生效。

五、安装Pytorch

5.1 新建 conda 环境

新建一个conda环境基于python3.10

接受

创建完虚拟环境后进入安装pytorch

5.2 安装

5.2.1 离线下载 pytorch

https://download.pytorch.org/whl/cu121

查询查找相应的文件

5.2.2 验证安装

复制代码

python -c "import torch; print('--- PyTorch and GPU Verification ---'); print('PyTorch Version:', torch.__version__); print('CUDA Available:', torch.cuda.is_available()); print('GPU Count:', torch.cuda.device_count()); print('GPU Name:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A'); print('cuDNN Enabled:', torch.backends.cudnn.enabled); print('cuDNN Version:', torch.backends.cudnn.version()); print('Simple GPU Tensor Test:', 'Success' if torch.cuda.is_available() and torch.rand(1).cuda() is not None else 'Failed')"

报错如下

您遇到的 ImportError 错误，即 undefined symbol: iJIT_NotifyEvent ，通常是由于 PyTorch 库 在尝试加载时，找不到它所依赖的某个 系统库文件 或 GCC 编译器库版本不匹配造成的。

这与您之前配置的 CUDA 和 cuDNN 没有直接关系，而是与 PyTorch 在 Python 环境中加载动态链接库时的依赖关系有关。

解决方案：安装 libtinfo5 和/或升级 Conda

未成功

不指定版本进行下载尝试

安装成功，进行功能验证

复制代码

python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())"

功能验证成功