一、NVIDIA驱动安装
经查询从官网下载 RTX5090驱动
1.1 驱动安装
1.1.1 运行安装文件
bash NVIDIA-Linux-x86_64-525.147.05.run
报错

没权限
1.1.2 给文件授权
sudo bash NVIDIA-Linux-x86_64-525.147.05.run
后显示
1.1.3 选择内核模块

| 选项 | 含义 | 推荐场景 |
|---|---|---|
| NVIDIA Proprietary | NVIDIA 官方专有内核模块(闭源) | 绝大多数情况都选这个,稳定、性能最优、完全支持 RTX 40 系列 |
| MIT/GPL | NVIDIA 提供的开源版本内核模块(GPL 兼容) | 可选,如果你希望模块完全开源并集成到 Linux 内核 tree,但 功能可能不如官方闭源版本完整,某些新功能 / GPU 特性可能不支持 |
1.1.4 确认安装

🔹 建议(AI / GPU 开发场景)
你做智能体开发、Docker + GPU、PyTorch / CUDA → 推荐用 .run 文件安装最新驱动(580 系)
如果你追求简单、最少干预 → Ubuntu 软件源安装 550 Long-Lived 驱动

警告

(1)什么是 32-bit compatibility libraries
- NVIDIA 驱动默认会安装 32-bit OpenGL / Vulkan / CUDA runtime 兼容库
- 用途:运行一些 32 位程序、老游戏、老软件
- 对 现代 AI 开发 / PyTorch / CUDA / Docker GPU 完全不影响
(2)为什么出现警告
-
Ubuntu 24.04 默认是 64 位系统 ,可能没有安装 i386 架构支持
-
安装程序找不到合适路径,所以提示:
32-bit compatibility files will not be installed
(3)解决方法(可选)
如果你真的需要 32 位支持(通常 AI 开发不需要),可以执行:
sudo dpkg --add-architecture i386
sudo apt update
sudo apt install libc6:i386 libgl1:i386 libgl1-mesa-glx:i386
然后重新运行 .run 文件,或者用选项指定路径:
sudo ./NVIDIA-Linux-x86_64-580.105.08.run --compat32-libdir=/usr/lib32
(4)对 AI 开发的影响
- 完全可以忽略这个警告
- 不会影响:
- PyTorch / CUDA / cuDNN
- TensorRT
- Docker GPU 加速
- LLM / 智能体推理
1.1.5 选择是否注册到 DKMS

是否把 NVIDIA 内核模块注册到 DKMS(Dynamic Kernel Module Support),解释一下利弊:
(1)什么是 DKMS
- DKMS 会在 内核升级或更换后 ,自动 重新编译 NVIDIA 驱动模块
- 作用:保证 GPU 驱动 随内核自动更新,不需要你手动重新安装
- 对 AI / Docker / PyTorch / CUDA 环境非常有用
(2)选项含义
| 选项 | 含义 | 推荐 |
|---|---|---|
| Yes | 注册到 DKMS,内核更新时自动重新编译 NVIDIA 模块 | ✅ 推荐 |
| No | 不注册,需要你手动在内核升级后重新安装驱动 | ❌ 不推荐 |
(3)环境建议
- 在 Ubuntu 24.04 + Kernel 6.14 + RTX 5090 系列
- AI 开发 / Docker GPU / PyTorch / CUDA / LLM 都需要驱动稳定
- 注册 DKMS 可以保证以后内核升级也能正常使用 NVIDIA GPU
所以选择 "Yes"

警告

这条警告是 NVIDIA .run 安装程序在提示 libglvnd EGL 配置文件无法找到安装路径。
(1)什么是 libglvnd EGL vendor library
- libglvnd = OpenGL Vendor Neutral Dispatch Library
- 用于 管理多个 GPU 驱动的 OpenGL / EGL 调用
EGL配置文件用于 图形接口初始化- 对 AI / CUDA / PyTorch / Docker GPU 环境,通常 不依赖 EGL
(2)为什么会出现警告
-
系统可能缺少开发库:
pkg-config
libglvnd-dev -
或安装程序无法找到默认路径
-
因此提示:
Unable to determine the path to install the libglvnd EGL vendor library config files
(3)对AI 开发影响
- 完全可以忽略这个警告
- 对 PyTorch / CUDA / cuDNN / Docker GPU / LLM 推理 都不会有影响
- 警告只影响 基于 EGL 的 OpenGL 图形程序(主要是游戏或 GUI 渲染)

1.1.6 选择是否自动修改 X 配置

这个提示是 NVIDIA .run 安装程序在问你 是否让它自动修改 X 配置文件,分析一下:
(1)什么是 nvidia-xconfig
nvidia-xconfig是 NVIDIA 提供的工具- 功能:自动修改
/etc/X11/xorg.conf文件 ,让 X Server 使用 NVIDIA 驱动而不是开源nouveau驱动 - 会 备份原有配置文件,如果安装失败可以恢复
(2)选项含义
| 选项 | 含义 | 推荐 |
|---|---|---|
| Yes | 自动更新 X 配置文件,开机后 GUI 自动使用 NVIDIA 驱动 | ✅ 推荐,尤其是桌面环境(GNOME/KDE) |
| No | 不修改 X 配置文件,需要手动配置 | ❌ 不推荐,除非你很熟悉 X 配置 |
(3)环境建议
- Ubuntu 24.04 桌面环境 + RTX 5090 系列
- AI / Docker / PyTorch / CUDA 对 X Server 可选 ,但如果希望:
- 未来使用桌面 GUI
- 或运行需要 OpenGL / Vulkan 的程序(可视化 / 游戏 / 可视化工具)
选择 Yes 最安全
- 它会自动备份旧配置
- 不需要手动修改
/etc/X11/xorg.conf
1.2 安装失败解决方法
之前一直安装不上的原因可能选错了型号之前用4090后改用5090
1.2.1 选择的MIT/GPL
| 特性 | NVIDIA Proprietary (闭源) | MIT/GPL (开源) |
|---|---|---|
| 内核模块代码 | 闭源 (Legacy) | 开源 (Open) |
| 兼容性 | 在内核更新时,更容易出现编译失败和兼容性问题。 | 更稳定,更容易适应新的 Linux 内核版本。 |
| 推荐用途 | 较旧的显卡或需要特定 Legacy 功能的环境。 | RTX 50 系列等新显卡、新的 Linux 内核。 |
| 性能 | 相同 | 相同 |
1.2.2 选择 5090 的驱动


之前因驱动安装失败关闭了图形化界面,恢复图形化界面
sudo systemctl enable --now gdm3

其他工具安装
| 工具 | 作用 | 推荐选择 |
|---|---|---|
| CUDA Toolkit (计算平台) | NVIDIA 的并行计算平台和编程模型,是所有深度学习框架运行的基础。 | 必须安装 |
| cuDNN (深度学习库) | NVIDIA 深度学习 GPU 加速库,用于加速神经网络运算。 | 必须安装 (作为 CUDA 的一部分) |
| Anaconda/Miniconda (环境管理) | Python 环境管理工具,用于创建和隔离不同的项目环境,避免库版本冲突。 | 强烈推荐安装 Miniconda (轻量版) |
| PyTorch/TensorFlow (深度学习框架) | 构建和训练智能体模型、处理知识库的框架。 | 必须安装 |
| Docker (容器化) | 将整个开发环境(包括 Python, PyTorch, CUDA)打包,确保环境一致性。 | 必须安装 (用于生产和部署) |
二、安装 CUDA Toolkit
2.1 下载 CUDA Toolkit 安装包

2.2 给文件授权运行
上传服务器-授权-运行

等待30秒后

accept

取消选中550.54.14
• 取消选择 Driver: 使用方向键将光标移动到 [ ] Driver 550.54.14,然后按 空格键 取消选中。需要安装 CUDA Toolkit。
• 保持选中 CUDA Toolkit: 确保 [X] CUDA Toolkit 12.4 及其他相关组件被选中。
• 安装路径/符号链接: 保持默认即可。 确认无误后,移动到 Install 选项并按 Enter 开始安装。

2.3 检查安装
检查安装是否成功

找不到命令可能由于环境变量未更新:
更新环境变量

三、安装 cuDNN
3.1 下载 cuDNN 上传解压
下载安装包上传解压(这里注意下载需要登录NVIDIA账号)

3.2 安装命令
安装步骤

四、安装miniconda
4.1 下载miniconda上传
官网地址:https://www.anaconda.com/docs/getting-started/miniconda/main

4.2 安装步骤


4.3 验证安装
验证miniconda已安装

运行 conda --version 提示 "conda:未找到命令",这说明 Miniconda 已经安装,但是当前的 shell 会话还没有加载 Miniconda 的配置。
这是因为选择了在安装时运行 conda init,但它只修改了 .bashrc 文件,而需要手动运行 source 命令来使其在当前会话中生效。

五、安装Pytorch
5.1 新建 conda 环境
新建一个conda环境基于python3.10

接受


创建完虚拟环境后进入安装pytorch
5.2 安装

5.2.1 离线下载 pytorch
https://download.pytorch.org/whl/cu121

查询查找相应的文件

5.2.2 验证安装
python -c "import torch; print('--- PyTorch and GPU Verification ---'); print('PyTorch Version:', torch.__version__); print('CUDA Available:', torch.cuda.is_available()); print('GPU Count:', torch.cuda.device_count()); print('GPU Name:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A'); print('cuDNN Enabled:', torch.backends.cudnn.enabled); print('cuDNN Version:', torch.backends.cudnn.version()); print('Simple GPU Tensor Test:', 'Success' if torch.cuda.is_available() and torch.rand(1).cuda() is not None else 'Failed')"
报错如下

您遇到的 ImportError 错误,即 undefined symbol: iJIT_NotifyEvent ,通常是由于 PyTorch 库 在尝试加载时,找不到它所依赖的某个 系统库文件 或 GCC 编译器库版本不匹配造成的。
这与您之前配置的 CUDA 和 cuDNN 没有直接关系,而是与 PyTorch 在 Python 环境中加载动态链接库时的依赖关系有关。
解决方案:安装 libtinfo5 和/或升级 Conda

未成功

不指定版本进行下载尝试

安装成功,进行功能验证

python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())"
功能验证成功
