解决DCNv2不能使用高版本pytorch编译的问题

Arnold-FY-Chen2023-09-04 19:36

可变形卷积网络GitHub - CharlesShang/DCNv2: Deformable Convolutional Networks v2 with Pytorch代码已经出来好几年了，虽然声称"Now the master branch is for pytorch 1.x"，实际上由于pytorch自1.11版开始发生了很大变化，原来基于C实现的THC封装实现的调用cuda、cudnn和cublas的API(只能用NVIDIA的GPU)被基于C++实现的ATen和c10里的API代替(ATen通过vulkan实现支持NVIDIA以外的GPU， ATen代码在https://github.com/pytorch/pytorch/tree/main/aten/src/ATen)，THC下的文件基本被删掉了，所以编译DCNv2时会遇到很多错误。

首先肯定是 error: THC/THC.h: No such file or directory 这样的错误，因为上面图中可以看到THC目录下已经没有这个文件了。

其次，DCNv2代码里调用的THC相关的API都必须使用ATen或c10的API替代，例如THCState_getCurrentStream()、THCCeilDiv()、THCudaCheck()、THCudaMalloc()、THCudaFree()，分别使用at::cuda::getCurrentCUDAStream()、at::ceil_div()、AT_CUDA_CHECK()、c10::cuda::CUDACachingAllocator::raw_alloc()、c10::cuda::CUDACachingAllocator::raw_delete()，否则编译时调用这些API的地方肯定是undefined错误。使用到THCState相关的地方都注释掉。

第三，THC里实现的cublas相关封装API需要使用ATen的cublas相关API替代，THCudaBlas_SgemmBatched()需要使用cublasCreate_v2() + cublasSgemmBatched() + cublasDestroy_v2()，而看起来似乎是和THCudaBlas_SgemmBatched()()0对应的at::cuda::blas::gemmBatched()不能用(不明白ATen这里为何是这样)!

THCudaBlas_Sgemm()和HCudaBlas_Sgemv()则分别使用at::cuda::blas::gemm()和at::cuda::blas::gemv()替代即可。

这个DCNv2_latest GitHub - lucasjinreal/DCNv2_latest: DCNv2 supports decent pytorch such as torch 1.5+ (now 1.8+)虽然修改代码实现了可以使用pytorch 1.11编译，但是把DCNv2里使用cublas实现的部分全部改用ATen的Tensor运算API改写了，相当于意译吧，是否正确和性能怎样没有去验证过，有兴趣的可以试试，我这个改写是尽量和DCNv2的原始实现保持一致，保持了使用cublas运算。

我的代码提交在GitHub - CharlesShang/DCNv2: Deformable Convolutional Networks v2 with Pytorch

顺便记录一下遇到的其他问题：

1.出现警告could not find ninja，安装ninja： sudo apt-get install ninja

2.出现错误：No such file or directory: ':/usr/local/cuda:/usr/local/cuda/bin/nvcc'

这个原因是ninja编译过程中需要，实验了一下，只有当你同时安装了多个cuda版本时出现，但是修改ninja的build配置文件没用！需要强制设置CUDA_HOME环境变量指定使用哪个版本的cuda:

export CUDA_HOME=/usr/local/cuda-11.4

在我的环境里，实验了一下，如果写成

export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-11.4

也不行会照样报上面的找不到nvcc的错误！应该是ninja的代码实现有毛病。

上一篇：顺式元件热图+柱状图

下一篇：CXL.cachemem 简介（背景&通道）

热门推荐

01UV安装并设置国内源 02Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04KGG转MP3工具|非KGM文件|解密音频 052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 08TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 09阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！10TRAE Rules 实践：为项目配置 6A 工作流