pytorch模型训练使用多GPU执行报错:Bus error (core dumped)(未解决)

问题信息

使用 cuda 进行训练

使用 4 个GPU进行训练

Epoch [1/20]: 0%| | 0/3184 [00:00<?, ?it/s]Bus error (core dumped)

执行方式

python 复制代码
 self.model = nn.DataParallel(self.model)
 self.model = self.model.to(self.device)

4张GPU均正常,单独指定使用任何一张都可正常执行,运行内存够大,但是一启动4GPU,4张显卡刚起来就error

相关推荐
橙露17 小时前
数据特征工程:缺失值、异常值、标准化一站式解决方案
人工智能·机器学习
新加坡内哥谈技术17 小时前
OpenAI 的 Codex 团队如何工作并利用 AI
人工智能
星河耀银海17 小时前
人工智能大模型的安全与隐私保护:技术防御与合规实践
人工智能·安全·ai·隐私
love530love17 小时前
Scoop 完整迁移指南:从 C 盘到 D 盘的无缝切换
java·服务器·前端·人工智能·windows·scoop
njsgcs17 小时前
agentscope提取msg+llama_index 查询
人工智能
哈里谢顿17 小时前
Django 应用 OOM(Out of Memory)故障的定位思路和排查方法
python·django
小和尚同志17 小时前
什么?oh-my-opencode 太重了?那试试 oh-my-opencode-slim
人工智能·aigc
甄心爱学习18 小时前
【python】获取所有长度为 k 的二进制字符串
python·算法
一路往蓝-Anbo18 小时前
第 9 章:Linux 设备树 (DTS) ——屏蔽与独占外设
linux·运维·服务器·人工智能·stm32·嵌入式硬件
飞哥数智坊18 小时前
把模型焊死在芯片上,就能跑出 17,000 tokens/秒?这是一条死路,还是一条新路?
人工智能