Paddle分布式训练报NCCL错

应该是没有装NCCL,但是通过NVIDIA官网方式用apt安装报错,说nccl签名有问题

打开官网查找对应版本的nccl:https://developer.nvidia.com/nccl/nccl-legacy-downloads

这里不下载local Ubuntu选项,下载O/S agnostic local installer这个选项

下载到本地后上传到服务器中,目录自己选

然后解压

复制代码
tar -xvf nccl-xxxx.tar

解压完进入文件夹,把nccl复制过去

复制代码
sudo cp include/* /usr/local/cuda/include
sudo cp lib/* /usr/local/cuda/lib64

然后把路径追加到环境变量中就可以了

复制代码
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:你自己上边解压的路径在哪就写什么
例如:export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/nccl_2.22.3-1+cuda10.0_ppc64le/lib

参考:https://blog.csdn.net/qq_41475067/article/details/123086190?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword\~default-0-123086190-blog-143115894.235^v43^pc_blog_bottom_relevance_base9\&spm=1001.2101.3001.4242.1\&utm_relevant_index=3

相关推荐
qq_wuqingdefeng15 天前
paddle 打包代码 ocr
ocr·paddle
BlackPercy16 天前
【paddle】常见的数学运算
paddle
米饭咔咔吃17 天前
飞桨paddle import fluid报错【已解决】
人工智能·paddlepaddle·paddle
米饭咔咔吃17 天前
飞桨paddle ‘ParallelEnv‘ object has no attribute ‘_device_id‘【已解决】
人工智能·paddlepaddle·paddle
隐形喷火龙20 天前
paddle ocr本地化部署进行文字识别
ocr·paddle
我变成了柴犬21 天前
PaddleClas 车辆属性模型vehicle_attribute_model转onnx并部署
paddle
令狐少侠20111 个月前
ai之paddleOCR 识别PDF python312和paddle版本冲突 GLIBCXX_3.4.30
人工智能·pdf·paddle
闻道且行之1 个月前
Paddle Serving|部署一个自己的OCR识别服务器
服务器·ocr·paddle
就是一顿骚操作1 个月前
Linux 部署以paddle Serving 的方式部署 PaddleOCR CPU版本
linux·r语言·paddle
鲲志说2 个月前
本地化部署DeepSeek-R1蒸馏大模型:基于飞桨PaddleNLP 3.0的实战指南
人工智能·nlp·aigc·paddlepaddle·飞桨·paddle·deepseek