关于使用Mxnet GPU版本运行DeepAR报错解决方案

1.引言

我们经常使用GPU来训练和部署神经网络,因为与CPU相比,它提供了更多的计算能力。在本教程中,我们将介绍如何将GPU与MXNet GluonTS一起使用。

首先,确保您的机器中至少有一个Nvidia GPU,并正确安装了CUDA以及CUDNN。但是在引入import mxnet后出现下面的问题:

MXNet的OSError: libnccl.so.2: cannot open shared object file: No such file or directory

本文将会解决这一问题,亲测好用。

2.博主服务器配置

  • Ubuntu 18.04
  • cuda11.3
  • cudnn 8.2.1

3.安装

(1)首先安装mxnet gpu版本,根据自己的cuda版本,如果是10.0那么就是mxnet-cu100以此类推。

python 复制代码
pip install mxnet-cu113

(2)安装gluonts.

python 复制代码
pip install gluonts

4.解决问题

(1)去 NVIDIA 官网下载(Log in | NVIDIA Developer)跟你 CUDA 版本和操作系统(我的是Ubuntu18.04)适配的 NCCL 文件

(2) 配置下载的deb文件

python 复制代码
sudo dpkg -i nccl-local-repo-ubuntu1804-2.9.9-cuda11.3_1.0-1_amd64.deb
sudo apt update
sudo apt install libnccl2=2.9.9-1+cuda11.3 libnccl-dev=2.9.9-1+cuda11.3

(3)你可以检查你的mxnet当前版本,以及可用的GPU数目:

python 复制代码
import mxnet as mx
print(f'Number of GPUs: {mx.context.num_gpus()}')

然后就解决了,可以利用 GPU 跑 MXNet GluonTS 的深度学习模型做时间序列预测项目。

(3)指定第四块GPU卡参与训练(它应该自动检测GPU,但你可以强制它)

python 复制代码
trainer=Trainer(
        ctx=mxnet.context.gpu(3),
        epochs=train_conf.max_epochs,
        num_batches_per_epoch=train_conf.num_batches_per_epoch,
    )

从下面的图可以看出,指定了第四块卡训练,显存得到占用。

相关推荐
HackTorjan2 分钟前
2026年5月29日:全球首个通用人工智能操作系统正式发布,开启人机协同新纪元
人工智能
刘大猫.21 分钟前
智造短剧新引擎:火山引擎上线「火山剧创 1.0」,制作效率提升 80%
人工智能·ai·chatgpt·机器人·大模型·火山引擎·短剧新引擎
红尘散仙1 小时前
我把终端小说阅读器接上了 AI Agent:TRNovel 现在能用 skill 生成书源了
人工智能·后端·rust
雅菲奥朗1 小时前
企业级 AI 自动化|OpenClaw 龙虾实战与认证
运维·人工智能·自动化·openclaw
HIT_Weston1 小时前
99、【Agent】【OpenCode】task 工具提示词(Slash command)(一)
人工智能·agent·opencode
25 Hz1 小时前
Mind 爱好者时空表征刊 第24期 | 时间结构学习、空间对时间表征的补偿、事件内部的时间扭曲……
人工智能
心中有国也有家1 小时前
GE图引擎深度解析——CANN的计算图优化与执行引擎
人工智能·pytorch·python·学习·numpy
海兰1 小时前
【文字三国志:第一篇】天命重构,大语言模型(LLM)动态生成文言风格的叙事文本的文字游戏
人工智能·游戏·语言模型
cxr8282 小时前
高分子复合材料 AI 逆向设计合——验证闭环、决策优化与中试放大
人工智能·材料逆向设计合成
litble2 小时前
如何速成LLM以伪装成一个AI研究者(6)——LoRA,Adapter,P-tuning,量化,QLoRA
人工智能·lora·量化·peft·qlora·高效微调