004.环境搭建基础篇：Python、CUDA、cuDNN、PyTorch/TensorFlow安装与版本兼容性踩坑

上周帮同事调试一个YOLOv5的模型导出问题，现象很典型：训练时一切正常，转到TensorRT部署时直接core dump。gdb跟进去发现是cuDNN版本不匹配导致的符号解析失败。这类环境兼容性问题在CV项目里太常见了，今天专门开一篇讲讲怎么从源头避开这些坑。

Python版本选型不是小事

很多人随手装个最新Python就开始干活，这是第一个隐患。主流深度学习框架对Python版本的支持有滞后性，比如PyTorch 1.12停止支持Python 3.6，TensorFlow 2.10要求Python 3.7-3.10。我的经验是选LTS版本，目前Python 3.8是个安全牌，社区支持周期长，大部分库都做了适配。用Anaconda管理环境是明智的，但别迷信base环境，每个项目单独建env，隔离依赖冲突。

bash 复制代码

# 别这样写
conda create -n yolov5 python=3.11  # 太新可能遇到包兼容问题

# 建议这样
conda create -n yolov5 python=3.8
conda activate yolov5
# 这里踩过坑：conda环境激活后pip还是系统路径，记得用which pip确认

CUDA与驱动版本的隐形绑定

NVIDIA驱动版本决定了CUDA Toolkit的上限。经常有人装了CUDA 11.7却跑不起来，一查驱动是450.80.02，最低要求470.82.01。先跑nvidia-smi看右上角CUDA Version，那是驱动支持的最高CUDA版本，不是实际安装版本。实际安装的CUDA版本用nvcc -V查。生产环境建议驱动比CUDA高一到两个小版本，比如CUDA 11.8配470以上驱动。

更坑的是多版本CUDA共存。系统里装多个CUDA Toolkit没问题，但要用软链接管理默认版本。我习惯把CUDA装到/usr/local/cuda-11.8，然后让/usr/local/cuda指向当前使用的版本。切换时改软链接就行，别动PATH顺序，容易乱。

bash 复制代码

# 查看驱动支持的CUDA最高版本
nvidia-smi
# 查看实际安装的CUDA版本
nvcc -V
# 切换软链接指向
sudo rm -rf /usr/local/cuda
sudo ln -s /usr/local/cuda-11.8 /usr/local/cuda

cuDNN的版本对齐要精确到小版本

cuDNN的版本兼容比CUDA严格得多。PyTorch/TensorFlow发行版都是针对特定cuDNN版本编译的，差一个小版本都可能触发ABI不兼容。比如TensorFlow 2.10要求cuDNN 8.6，你装8.7可能能跑但会有性能损失或隐式错误。去NVIDIA官网下载cuDNN时注意三个文件都要匹配：运行时库、开发库和文档。装完验证别只用ldconfig，写个测试程序调cudnnGetVersion()。

cpp 复制代码

// 简单验证cuDNN是否正常
#include <cudnn.h>
#include <stdio.h>
int main() {
    printf("cuDNN version: %d\n", cudnnGetVersion());  // 这里输出的是编码后的版本号
    return 0;
}
// 编译记得链接 -lcudnn

PyTorch/TensorFlow安装命令里的坑

官方给的pip安装命令带了-f https://download.pytorch.org/whl/torch_stable.html，这个源在国内可能慢。换成清华镜像源能快不少，但要注意镜像同步延迟。更稳妥的方法是先下whl包本地安装。TensorFlow的GPU版本现在统一叫tensorflow，装完记得验证GPU是否可见：

python 复制代码

import torch
print(torch.__version__)  # PyTorch版本
print(torch.cuda.is_available())  # 这里必须返回True
print(torch.backends.cudnn.version())  # 查看PyTorch实际链接的cuDNN版本

import tensorflow as tf
print(tf.__version__)
print(tf.config.list_physical_devices('GPU'))  # 应该显示GPU设备列表
# 踩过坑：如果这里显示空列表，多半是CUDA/cuDNN版本不匹配

版本兼容性矩阵要会查

别凭记忆背版本对应关系，去官网查最新矩阵。PyTorch官网有"Previous PyTorch Versions"页面，TensorFlow有"Tested build configurations"。记录几个常用组合：

PyTorch 1.13.1 + CUDA 11.7 + cuDNN 8.5 + Python 3.8（稳定组合）
TensorFlow 2.11.0 + CUDA 11.2 + cuDNN 8.1 + Python 3.8（官方推荐）
注意CUDA 11.x的兼容性较好，从11.0到11.8大部分库都支持。CUDA 12.x刚出不久，等生态成熟再跟。

环境隔离与复现

用conda export导出的environment.yml经常漏掉系统依赖。我习惯加三个标记：--no-builds避免带具体构建号，--from-history只保留显式安装的包，再手动补上CUDA版本说明。Docker是终极方案，但镜像大小要控制，基础镜像选nvidia/cuda:11.8.0-cudnn8-devel-ubuntu20.04这类带版本标签的。

个人经验建议

环境搭建别追求最新版本，特别是生产环境。选比当前主流晚半年的版本最稳，比如现在CUDA 12.x已经发布，但用11.8反而更少踩坑。所有版本确定后先写个测试脚本，验证张量计算、卷积、BN层都能跑通GPU加速。遇到玄学问题先检查环境变量：LD_LIBRARY_PATH是否包含CUDA库路径，PATH里Python是否来自正确环境。最后记住，深度学习环境是"配出来的不是装出来的"，多花半小时验证兼容性，能省掉后面几天调试时间。