CUDA从入门到放弃(九):CUDA错误处理(Error Handling)

在编写CUDA程序时,错误处理是确保程序正确性和稳定性的关键。CUDA错误主要分为编译阶段和运行阶段两类。编译阶段错误通过编译器检查,而运行阶段错误更为复杂,涉及运行时条件、内存访问和设备资源等。

对于运行阶段错误,特别要关注带返回码和不带返回码的函数。带返回码的函数,如CUDA API,应即时检查其返回的错误码。而不带返回码的函数则需要关注其他错误指示方式,如全局状态或日志信息。

通过实施有效的错误检查机制,我们可以及时发现并解决CUDA程序中的错误,确保程序的正确执行。

1 带返回码函数的错误检查

CUDA运行时API中的许多函数都遵循一种常见的模式,即执行某个操作后返回一个cudaError_t类型的错误码。这与常规的C/C++错误处理机制类似,通过检查返回的错误码,可以判断操作是否成功执行。cudaError_t是一个枚举类型,它包含了一系列可能的错误状态,其中一些常见的枚举值包括:

cudaSuccess:表示操作成功,其值为0。

cudaErrorInvalidValue:表示函数接收到了一个无效的值,其值为1。

cudaErrorMemoryAllocation:表示内存分配失败,其值为2。

cudaErrorInitializationError:表示初始化错误,其值为3。

cudaErrorCudartUnloading:表示CUDA运行时正在卸载,其值为4。

......

当调用这类带返回码的CUDA函数时,我们通常会将返回的错误码与cudaSuccess进行比较,以判断操作是否成功。然而,仅仅记录错误码可能并不足以帮助我们迅速定位问题,因为错误码本身是一个数字,要理解其背后的含义,通常需要查阅文档。

为了更直观地记录错误信息,CUDA提供了两个非常有用的函数 cudaGetErrorName 和 cudaGetErrorString:

cudaGetErrorName:
cpp 复制代码
__host____device__const char *cudaGetErrorName(cudaError_t error)

cudaGetErrorName 函数接受一个cudaError_t类型的错误码作为参数,并返回与之对应的错误名称。如果传入的错误码不在CUDA定义的错误码列表中,它会返回字符串"unrecognized error code"。

cudaGetErrorString:
cpp 复制代码
__host____device__const char *cudaGetErrorString(cudaError_t error)

cudaGetErrorString 与cudaGetErrorName类似,但它返回的是关于该错误码的详细描述信息。同样,如果错误码无法识别,它会返回"unrecognized error code"。

通过使用这两个函数,我们可以在记录错误日志时包含更详细的错误信息,从而更快速地定位和解决问题。因此,在编写涉及CUDA操作的代码时,建议对每个可能返回错误码的API调用都进行错误检查,并在发现错误时调用这些函数以获取更具体的错误信息。

使用示例:

cpp 复制代码
#include <stdio.h>  
#include <stdlib.h>  
#include <cuda_runtime.h>  
  
cudaError_t cuda_check(cudaError_t error_code, int line)  
{  
    if (error_code != cudaSuccess)  
    {  
        printf("line: %d, error_code: %d, error_name: %s, error_description: %s\n",  
                line, error_code, cudaGetErrorName(error_code), cudaGetErrorString(error_code));  
        exit(EXIT_FAILURE); // 如果出现错误,最好退出程序  
    }  
    return error_code;  
}  
  
int main()  
{  
    // host上申请内存空间  
    float *p_host = (float *)malloc(4 * sizeof(float)); 
    memset(p_host, 0, 4 * sizeof(float));
  
    // device上申请相同大小空间  
    float *p_device;  
    cudaError_t error_code = cudaMalloc((void**)&p_device, 4 * sizeof(float));
    cuda_check(error_code, __LINE__); 
  
    // 使用cudaMemset设置device内存为0  
    error_code = cudaMemset(p_device, 0, 4 * sizeof(float)); // 修正:确保清零整个内存块  
    cuda_check(error_code, __LINE__);  
  
    // host数据拷贝到device  
    error_code = cudaMemcpy(p_device, p_host, 4 * sizeof(float), cudaMemcpyHostToDevice); // 修正:使用正确的方向参数  
    cuda_check(error_code, __LINE__);  
  
    free(p_host); // 释放host内存  
  
    // 释放device内存  
    error_code = cudaFree(p_device);  
    cuda_check(error_code, __LINE__);  
  
    return 0;  
}

2 不带返回码函数的错误检查

除了那些直接返回cudaError_t类型错误码的函数外,CUDA中确实存在一些不直接返回错误码的函数,特别是那些核函数(kernels),它们通常被设计为返回void类型。对于这类函数,如何进行错误检查就显得尤为重要。

对于熟悉Linux环境的开发者来说,$?这个变量应该不陌生,它用于获取上一个shell命令的退出状态码。在CUDA编程中,有一个类似的机制来检查不带返回码函数的执行结果,那就是cudaGetLastError 和 cudaPeekAtLastError函数, 这两函数不接受任何参数,并返回一个cudaError_t类型的错误码。如果自上次调用CUDA运行时函数以来没有发生错误,那么它将返回cudaSuccess。否则,它将返回与错误相对应的枚举值。

cudaGetLastError:
cpp 复制代码
__host__ __device__ cudaError_t cudaGetLastError(void)

cudaGetLastError函数返回在主机线程中由CUDA Runtime库同一实例的任何运行时调用产生的最后一个错误,并将其重置为cudaSuccess。

cudaPeekAtLastError:
cpp 复制代码
__host____device__cudaError_t cudaPeekAtLastError(void)

cudaGetLastError函数返回在主机线程中由CUDA Runtime库同一实例的任何运行时调用产生的最后一个错误。但是不会像cudaGetLastError()那样将错误重置为cudaSuccess。

为了有效使用cudaGetLastError进行错误检查,我们通常在执行不带返回码的函数后,立即调用它来检查是否有错误发生。如果有错误,我们可以使用之前提到的cudaGetErrorName和cudaGetErrorString函数来获取更详细的错误信息,以便于调试和解决问题。

使用示例:

cpp 复制代码
#include <stdio.h>  
#include <cuda_runtime.h>  
  
__global__ void just_printf()  
{  
    printf("hello from GPU\n");  
}  
  
cudaError_t cuda_check(cudaError_t error_code, int line)  
{  
    if (error_code != cudaSuccess)  
    {  
        printf("line: %d, error_code: %d, error_name: %s, error_description: %s\n",  
                line, error_code, cudaGetErrorName(error_code), cudaGetErrorString(error_code));  
        exit(EXIT_FAILURE); // 检测到CUDA错误时退出程序  
    }  
    return error_code;  
}  
  
int main()  
{  
    // 查看线程块的最大线程数  
    cudaDeviceProp prop;  
    cuda_check(cudaGetDeviceProperties(&prop, 0), __LINE__);  
    int maxThreadsPerBlock = prop.maxThreadsPerBlock; // 注意这里使用maxThreadsPerBlock而不是maxThreadsDim[0]  
    printf("maxThreadsPerBlock: %d\n", maxThreadsPerBlock);  
  
    // 启动内核,block_size不能超过GPU支持的最大线程数  
    int block_size = (maxThreadsPerBlock < 2048) ? maxThreadsPerBlock : 2048;  
    just_printf<<<1, block_size>>>();  
  
    // 同步设备,确保所有CUDA操作完成,以便检测错误  
    cuda_check(cudaDeviceSynchronize(), __LINE__);  
  
    return 0;  
}

参考资料

1 CUDA编程入门

2 CUDA编程入门极简教程

3 CUDA C++ Programming Guide

4 CUDA C++ Best Practices Guide

5 NVIDIA CUDA初级教程视频

6 CUDA专家手册 [GPU编程权威指南]

7 CUDA并行程序设计:GPU编程指南

8 CUDA C编程权威指南

相关推荐
old_power25 分钟前
【PCL】Segmentation 模块—— 基于图割算法的点云分割(Min-Cut Based Segmentation)
c++·算法·计算机视觉·3d
通信.萌新33 分钟前
OpenCV边沿检测(Python版)
人工智能·python·opencv
ARM+FPGA+AI工业主板定制专家35 分钟前
基于RK3576/RK3588+FPGA+AI深度学习的轨道异物检测技术研究
人工智能·深度学习
赛丽曼38 分钟前
机器学习-分类算法评估标准
人工智能·机器学习·分类
伟贤AI之路41 分钟前
从音频到 PDF:AI 全流程打造完美英文绘本教案
人工智能
weixin_3077791342 分钟前
分析一个深度学习项目并设计算法和用PyTorch实现的方法和步骤
人工智能·pytorch·python
helianying551 小时前
云原生架构下的AI智能编排:ScriptEcho赋能前端开发
前端·人工智能·云原生·架构
池央1 小时前
StyleGAN - 基于样式的生成对抗网络
人工智能·神经网络·生成对抗网络
PaLu-LI2 小时前
ORB-SLAM2源码学习:Initializer.cc⑧: Initializer::CheckRT检验三角化结果
c++·人工智能·opencv·学习·ubuntu·计算机视觉
小猪咪piggy2 小时前
【深度学习入门】深度学习知识点总结
人工智能·深度学习