解决DCNv2不能使用高版本pytorch编译的问题

可变形卷积网络GitHub - CharlesShang/DCNv2: Deformable Convolutional Networks v2 with Pytorch代码已经出来好几年了,虽然声称"Now the master branch is for pytorch 1.x",实际上由于pytorch自1.11版开始发生了很大变化,原来基于C实现的THC封装实现的调用cuda、cudnn和cublas的API(只能用NVIDIA的GPU)被基于C++实现的ATen和c10里的API代替(ATen通过vulkan实现支持NVIDIA以外的GPU, ATen代码在https://github.com/pytorch/pytorch/tree/main/aten/src/ATen),THC下的文件基本被删掉了,所以编译DCNv2时会遇到很多错误。

首先肯定是 error: THC/THC.h: No such file or directory 这样的错误,因为上面图中可以看到THC目录下已经没有这个文件了。

其次,DCNv2代码里调用的THC相关的API都必须使用ATen或c10的API替代,例如THCState_getCurrentStream()、THCCeilDiv()、THCudaCheck()、THCudaMalloc()、THCudaFree(),分别使用at::cuda::getCurrentCUDAStream()、at::ceil_div()、AT_CUDA_CHECK()、c10::cuda::CUDACachingAllocator::raw_alloc()、c10::cuda::CUDACachingAllocator::raw_delete(),否则编译时调用这些API的地方肯定是undefined错误。使用到THCState相关的地方都注释掉。

第三,THC里实现的cublas相关封装API需要使用ATen的cublas相关API替代,THCudaBlas_SgemmBatched()需要使用cublasCreate_v2() + cublasSgemmBatched() + cublasDestroy_v2(),而看起来似乎是和THCudaBlas_SgemmBatched()()0对应的at::cuda::blas::gemmBatched()不能用(不明白ATen这里为何是这样)!

THCudaBlas_Sgemm()和HCudaBlas_Sgemv()则分别使用at::cuda::blas::gemm()和at::cuda::blas::gemv()替代即可。

这个DCNv2_latest GitHub - lucasjinreal/DCNv2_latest: DCNv2 supports decent pytorch such as torch 1.5+ (now 1.8+)虽然修改代码实现了可以使用pytorch 1.11编译,但是把DCNv2里使用cublas实现的部分全部改用ATen的Tensor运算API改写了,相当于意译吧,是否正确和性能怎样没有去验证过,有兴趣的可以试试,我这个改写是尽量和DCNv2的原始实现保持一致,保持了使用cublas运算。

我的代码提交在GitHub - CharlesShang/DCNv2: Deformable Convolutional Networks v2 with Pytorch

顺便记录一下遇到的其他问题:

1.出现警告could not find ninja,安装ninja: sudo apt-get install ninja

2.出现错误:No such file or directory: ':/usr/local/cuda:/usr/local/cuda/bin/nvcc'

这个原因是ninja编译过程中需要,实验了一下,只有当你同时安装了多个cuda版本时出现,但是修改ninja的build配置文件没用!需要强制设置CUDA_HOME环境变量指定使用哪个版本的cuda:

export CUDA_HOME=/usr/local/cuda-11.4

在我的环境里,实验了一下,如果写成

export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-11.4

也不行会照样报上面的找不到nvcc的错误!应该是ninja的代码实现有毛病。

相关推荐
小鸡吃米…5 小时前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
好奇龙猫6 小时前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)6 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
minhuan6 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维6 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS6 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
ASF1231415sd6 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪
水如烟7 小时前
孤能子视角:“意识“的阶段性回顾,“感质“假说
人工智能
Carl_奕然7 小时前
【数据挖掘】数据挖掘必会技能之:A/B测试
人工智能·python·数据挖掘·数据分析
旅途中的宽~7 小时前
《European Radiology》:2024血管瘤分割—基于MRI T1序列的分割算法
人工智能·计算机视觉·mri·sci一区top·血管瘤·t1