Paddle分布式训练报NCCL错

应该是没有装NCCL,但是通过NVIDIA官网方式用apt安装报错,说nccl签名有问题

打开官网查找对应版本的nccl:https://developer.nvidia.com/nccl/nccl-legacy-downloads

这里不下载local Ubuntu选项,下载O/S agnostic local installer这个选项

下载到本地后上传到服务器中,目录自己选

然后解压

复制代码
tar -xvf nccl-xxxx.tar

解压完进入文件夹,把nccl复制过去

复制代码
sudo cp include/* /usr/local/cuda/include
sudo cp lib/* /usr/local/cuda/lib64

然后把路径追加到环境变量中就可以了

复制代码
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:你自己上边解压的路径在哪就写什么
例如:export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/nccl_2.22.3-1+cuda10.0_ppc64le/lib

参考:https://blog.csdn.net/qq_41475067/article/details/123086190?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword\~default-0-123086190-blog-143115894.235^v43^pc_blog_bottom_relevance_base9\&spm=1001.2101.3001.4242.1\&utm_relevant_index=3

相关推荐
小蜜蜂爱编程3 天前
深度学习之基于paddle的多机训练资源配置
人工智能·深度学习·paddle
leehao_vip15 天前
windows 下的paddle ocr 部署
windows·ocr·paddle
三千院本院15 天前
安装paddle_ocr踩坑(使用PP-OCRv5_server_rec)
ocr·paddle
2401_865273791 个月前
【无标题】
百度·facebook·paddle·新浪微博·segmentfault
动能小子ohhh1 个月前
Langchain从零开始到应用落地案例[AI智能助手]【3】---使用Paddle-OCR识别优化可识别图片进行解析回答
人工智能·python·pycharm·langchain·ocr·paddle·1024程序员节
2401_865273791 个月前
郑光荣:守护市井烟火
百度·facebook·paddle·新浪微博·微信开放平台
7723892 个月前
Paddle导出PP-OCRv5 onnx并推理
paddle
颢师傅2 个月前
【算法部署】百度paddle环境适配
百度·paddle
国服第二切图仔5 个月前
【源力觉醒 创作者计划】文心开源大模型ERNIE-4.5系列与Qwen/DeepSeek/GPT-4横向深度测评报告
百度·开源·文心大模型·paddle·gitcode
国服第二切图仔5 个月前
基于文心开源大模型ERNIE-4.5-0.3B-Paddle私有化部署并构建一个企业智能客服系统
百度·开源·智能客服·知识库·文心大模型·paddle·gitcode