设置cuda:1但是cuda:0在波动的问题

背景

yolo设置gpu:1但是在启动之后, 会发现gpu:0上也会出现相同进程号的进程, 并且gpu:0的利用率在波动, 而gpu1没有波动.

一、现象总结

设置了 device=1 / gpu:1

但 nvidia-smi 里 gpu:0 也出现了同一个 PID

gpu:0 显存占用 + 利用率波动

gpu:1 几乎不动 / 不波动

二、真实原因

PyTorch 会默认在 GPU:0 上初始化 CUDA 上下文,即使指定用 GPU:1 做主训练卡。

也就是说:

真正的模型、前向、反向、数据 → 99% 都在 GPU:1

GPU:0 只是被占了一个 "CUDA 上下文" + 少量显存

GPU:0 波动 = CUDA 初始化 + 少量通信开销

GPU:1 不波动 = 它在认真干活,但显示不明显(YOLO 推理 / 训练本来就快)

三、为什么 GPU:0 会有同一个 PID?

因为:

一个进程 = 一个 PID

这个进程启动 CUDA → 默认一定会初始化 GPU:0

你指定用 gpu:1 → 模型在 1 上跑

但 进程还是同一个 → 所以两边显示同一个 PID

这是 CUDA 底层机制,不是 YOLO 的问题。

四、为什么 GPU:1 不波动?

因为:

YOLO 推理 / 训练速度极快

GPU 利用率不是持续 100%

它是间歇性干活

nvidia-smi 是一秒采样一次

→ 所以你看到 GPU:1 几乎不动,但它其实在干活

五、如何确认模型真的在 GPU:1 上跑?

运行这段代码,100% 确认模型设备:

python 复制代码
运行
import torch
model = torch.load("your_weights.pt")
print(next(model.parameters()).device)

输出:

plaintext 复制代码
cuda:1

✅ 说明模型 100% 在 GPU1

六、如何彻底让 GPU0 不出现任何进程?

如果希望 GPU0 完全干净,必须在 程序最开头 设置环境变量:

python 复制代码
运行
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "1"

import torch

后面再写 YOLO 代码

效果:

只会看到 GPU:1

GPU:0 完全干净

不会出现双 GPU 现象

这是唯一能彻底解决的方法。

七、最终结论

✅ 配置没有错

✅ 模型确实在 GPU1 跑

✅ GPU0 只是 CUDA 上下文,不影响性能

✅ 想彻底干净 → 用 CUDA_VISIBLE_DEVICES=1

八. 解决方案

在 YOLO 启动脚本 /train.py 最最开头,加入这行:

python 复制代码
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "1"

说明: 必须放在 import torch 之前!必须第一行!

示例

python 复制代码
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "1"

import torch
import utils
  • 情况 2:用命令行启动(bash / 命令行)
    直接运行:
bash 复制代码
export CUDA_VISIBLE_DEVICES=1
python train.py --device 1

改完之后效果

✅ GPU:0 完全不出现任何进程

✅ GPU:1 正常占用、正常波动

✅ 模型 100% 跑在 GPU1

✅ 不会再出现 "同 PID 双 GPU" 现象

相关推荐
Peter·Pan爱编程1 小时前
深度解析MiniMax M2.7:当AI学会“自我进化”,以及如何通过Ollama本地体验最强Agent
人工智能·ai编程·agent skills·openclaw
帐篷Li1 小时前
【AgenticCPS 】CPS联盟返利系统 - 实施计划
大数据·网络·人工智能
罗罗攀1 小时前
PyTorch学习笔记|张量的广播和科学运算
人工智能·pytorch·笔记·python·学习
倦王1 小时前
Dify2:提示词工程与运用
人工智能
PhotonixBay2 小时前
共聚焦显微镜的结构组成与应用
人工智能·算法·机器学习
大傻^2 小时前
Spring AI Alibaba Function Calling:外部工具集成与业务函数注册
java·人工智能·后端·spring·springai·springaialibaba
SuniaWang2 小时前
《Spring AI + 大模型全栈实战》学习手册系列 · 专题四:《Ollama 模型管理与调优:让 AI 模型在低配服务器上流畅运行》
人工智能·学习·spring
anscos_yumi2 小时前
Altair OptiStruct:重构结构研发逻辑,引领工业仿真与优化新纪元
人工智能·科技·软件工程
市象2 小时前
小红书盯上“AI版郑州帮”
人工智能·网络安全·传媒