关于使用Mxnet GPU版本运行DeepAR报错解决方案

1.引言

我们经常使用GPU来训练和部署神经网络,因为与CPU相比,它提供了更多的计算能力。在本教程中,我们将介绍如何将GPU与MXNet GluonTS一起使用。

首先,确保您的机器中至少有一个Nvidia GPU,并正确安装了CUDA以及CUDNN。但是在引入import mxnet后出现下面的问题:

MXNet的OSError: libnccl.so.2: cannot open shared object file: No such file or directory

本文将会解决这一问题,亲测好用。

2.博主服务器配置

  • Ubuntu 18.04
  • cuda11.3
  • cudnn 8.2.1

3.安装

(1)首先安装mxnet gpu版本,根据自己的cuda版本,如果是10.0那么就是mxnet-cu100以此类推。

python 复制代码
pip install mxnet-cu113

(2)安装gluonts.

python 复制代码
pip install gluonts

4.解决问题

(1)去 NVIDIA 官网下载(Log in | NVIDIA Developer)跟你 CUDA 版本和操作系统(我的是Ubuntu18.04)适配的 NCCL 文件

(2) 配置下载的deb文件

python 复制代码
sudo dpkg -i nccl-local-repo-ubuntu1804-2.9.9-cuda11.3_1.0-1_amd64.deb
sudo apt update
sudo apt install libnccl2=2.9.9-1+cuda11.3 libnccl-dev=2.9.9-1+cuda11.3

(3)你可以检查你的mxnet当前版本,以及可用的GPU数目:

python 复制代码
import mxnet as mx
print(f'Number of GPUs: {mx.context.num_gpus()}')

然后就解决了,可以利用 GPU 跑 MXNet GluonTS 的深度学习模型做时间序列预测项目。

(3)指定第四块GPU卡参与训练(它应该自动检测GPU,但你可以强制它)

python 复制代码
trainer=Trainer(
        ctx=mxnet.context.gpu(3),
        epochs=train_conf.max_epochs,
        num_batches_per_epoch=train_conf.num_batches_per_epoch,
    )

从下面的图可以看出,指定了第四块卡训练,显存得到占用。

相关推荐
zhangfeng11338 分钟前
趋动云 如何ssh登录 服务区 项目server
运维·人工智能·ssh
中烟创新11 分钟前
灯塔AI智能体获评“2025-2026中国数智科技年度十大创新力产品”
大数据·人工智能·科技
无人装备硬件开发爱好者12 分钟前
硬核技术解析|MCP 协议实现语音 AI 与 ESP32 软 / 硬件的标准化对接:从火山引擎豆包认证到全链路落地——中
人工智能·esp32·火山引擎·mcp
阿里云大数据AI技术18 分钟前
Hologres 向量检索和全文检索在淘天客户运营的实践
人工智能
机器之心28 分钟前
击败谷歌、英伟达!清华陈建宇×斯坦福Chelsea团队世界模型Ctrl-World具身能力登顶全球
人工智能·openai
掘金一周42 分钟前
2026 春晚魔术大揭秘:作为程序员,分分钟复刻一个 | 掘金一周 2.26
前端·人工智能·后端
Flying pigs~~1 小时前
机器学习之逻辑回归
人工智能·机器学习·数据挖掘·数据分析·逻辑回归
璞华Purvar1 小时前
2026智造升级|从配方到生产,从协同到合规——璞华易研PLM赋能制造企业全链路升级
大数据·人工智能
aircrushin1 小时前
开发者工具进化,从代码助手到安全审计的AI工具链
人工智能
deephub1 小时前
向量搜索系统的三个核心优化维度:速度、精度与规模
人工智能·python·rag·检索