HTML函数在多GPU系统中如何调用_显卡切换机制说明【汇总】

cudaSetDevice()必须在任何CUDA上下文创建前调用，否则无效；CUDA_VISIBLE_DEVICES是设备重映射而非过滤；PyTorch与TensorFlow需硬隔离或内存增长配置；NCCL通信依赖硬件拓扑与环境变量对齐。GPU设备索引不生效：为什么cudaSetDevice()调用后仍跑在0号卡多GPU环境下，cudaSetDevice()必须在任何CUDA上下文创建前调用，否则无效。常见错误是先调用了torch.randn(100).cuda()或tf.random.normal( $100$ ).gpu()，这时默认上下文已绑定到device 0，后续cudaSetDevice(1)完全不起作用。PyTorch中应显式指定device='cuda:1'，而非依赖全局设备切换TensorFlow 2.x需在tf.config.set_visible_devices()后，再用with tf.device('/GPU:1'):包裹计算逻辑CUDA C/C++程序务必把cudaSetDevice(1)放在cudaMalloc、cudaLaunchKernel等任何API之前环境变量冲突：为什么CUDA_VISIBLE_DEVICES=1后nvidia-smi只看到一张卡CUDA_VISIBLE_DEVICES不是"选择哪张卡"，而是"重映射可见设备编号"。设为1时，程序内cudaGetDeviceCount()返回1，且cudaSetDevice(0)实际对应物理卡1------它把物理ID做了偏移，不是过滤。若想让程序只看到物理卡1且把它当作device 0，用CUDA_VISIBLE_DEVICES=1是对的；但若想同时用卡1和卡2，得写CUDA_VISIBLE_DEVICES=1,2该变量对nvidia-smi本身无影响，它始终显示所有物理卡；但对Python进程内的torch.cuda.device_count()有决定性影响与os.environ $'CUDA_VISIBLE_DEVICES'$ 设置顺序有关：必须在import torch前设置，否则被忽略跨框架混用GPU：PyTorch和TensorFlow共存时显存打架怎么办两个框架各自初始化独立CUDA上下文，默认都会抢占所有可见GPU的全部显存（即使只用其中一张）。这不是"显存共享失败"，而是"各自独占策略冲突"。TensorFlow需提前调用tf.config.experimental.set_memory_growth(gpu, True)，否则一启动就锁死整卡显存PyTorch无法动态释放显存，但可通过torch.cuda.empty_cache()清空缓存------仅对当前device有效，且不归还给系统，只供本进程复用最稳方案：用CUDA_VISIBLE_DEVICES做硬隔离，比如PyTorch进程设为=0，TensorFlow设为=1，彻底避免交叠NCCL通信报错：NCCL_VERSION和NCCL_SOCKET_TIMEOUT怎么配才不挂多GPU训练中NCCL报错常不是代码问题，而是环境变量没对齐。尤其混合使用不同CUDA版本的PyTorch和系统驱动时，NCCL底层会静默降级或超时失败。 Vozo Vozo是一款强大的AI视频编辑工具，可以帮助用户轻松重写、配音和编辑视频。