设置cuda:1但是cuda:0在波动的问题

背景

yolo设置gpu:1但是在启动之后, 会发现gpu:0上也会出现相同进程号的进程, 并且gpu:0的利用率在波动, 而gpu1没有波动.

一、现象总结

设置了 device=1 / gpu:1

但 nvidia-smi 里 gpu:0 也出现了同一个 PID

gpu:0 显存占用 + 利用率波动

gpu:1 几乎不动 / 不波动

二、真实原因

PyTorch 会默认在 GPU:0 上初始化 CUDA 上下文,即使指定用 GPU:1 做主训练卡。

也就是说:

真正的模型、前向、反向、数据 → 99% 都在 GPU:1

GPU:0 只是被占了一个 "CUDA 上下文" + 少量显存

GPU:0 波动 = CUDA 初始化 + 少量通信开销

GPU:1 不波动 = 它在认真干活,但显示不明显(YOLO 推理 / 训练本来就快)

三、为什么 GPU:0 会有同一个 PID?

因为:

一个进程 = 一个 PID

这个进程启动 CUDA → 默认一定会初始化 GPU:0

你指定用 gpu:1 → 模型在 1 上跑

但 进程还是同一个 → 所以两边显示同一个 PID

这是 CUDA 底层机制,不是 YOLO 的问题。

四、为什么 GPU:1 不波动?

因为:

YOLO 推理 / 训练速度极快

GPU 利用率不是持续 100%

它是间歇性干活

nvidia-smi 是一秒采样一次

→ 所以你看到 GPU:1 几乎不动,但它其实在干活

五、如何确认模型真的在 GPU:1 上跑?

运行这段代码,100% 确认模型设备:

python 复制代码
运行
import torch
model = torch.load("your_weights.pt")
print(next(model.parameters()).device)

输出:

plaintext 复制代码
cuda:1

✅ 说明模型 100% 在 GPU1

六、如何彻底让 GPU0 不出现任何进程?

如果希望 GPU0 完全干净,必须在 程序最开头 设置环境变量:

python 复制代码
运行
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "1"

import torch

后面再写 YOLO 代码

效果:

只会看到 GPU:1

GPU:0 完全干净

不会出现双 GPU 现象

这是唯一能彻底解决的方法。

七、最终结论

✅ 配置没有错

✅ 模型确实在 GPU1 跑

✅ GPU0 只是 CUDA 上下文,不影响性能

✅ 想彻底干净 → 用 CUDA_VISIBLE_DEVICES=1

八. 解决方案

在 YOLO 启动脚本 /train.py 最最开头,加入这行:

python 复制代码
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "1"

说明: 必须放在 import torch 之前!必须第一行!

示例

python 复制代码
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "1"

import torch
import utils
  • 情况 2:用命令行启动(bash / 命令行)
    直接运行:
bash 复制代码
export CUDA_VISIBLE_DEVICES=1
python train.py --device 1

改完之后效果

✅ GPU:0 完全不出现任何进程

✅ GPU:1 正常占用、正常波动

✅ 模型 100% 跑在 GPU1

✅ 不会再出现 "同 PID 双 GPU" 现象

相关推荐
墨染天姬13 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志13 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_9481142413 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠13 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光13 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好13 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力14 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用
jinanwuhuaguo14 小时前
截止到4月8日,OpenClaw 2026年4月更新深度解读剖析:从“能力回归”到“信任内建”的范式跃迁
android·开发语言·人工智能·深度学习·kotlin
xiaozhazha_14 小时前
效率提升80%:2026年AI CRM与ERP深度集成的架构设计与实现
人工智能
枫叶林FYL14 小时前
【自然语言处理 NLP】7.2.2 安全性评估与Constitutional AI
人工智能·自然语言处理