CUDA C++编程指南(7.31&32&33&34)——C++语言扩展之性能分析计数器函数和断言、陷阱、断点函数

7.31. 性能分析计数器函数

每个多处理器都配备了一组16个硬件计数器,应用程序可以通过调用__prof_trigger()函数,用一条指令来递增这些计数器。

复制代码
void __prof_trigger(int counter);

每个warp将索引为counter的每多处理器硬件计数器递增1。计数器8至15为保留值,应用程序不应使用。

计数器0、1、...、7的值可以通过nvprof工具使用nvprof --events prof_trigger_0x命令获取,其中x取值为0、1、...、7。所有计数器在每次内核启动前都会重置(请注意,在收集计数器数据时,内核启动是同步进行的)。

7.32. 断言

断言功能仅支持计算能力2.x及更高版本的设备。

复制代码
void assert(int expression);

如果expression等于零,则停止内核执行。如果程序在调试器中运行,这将触发断点,调试器可用于检查设备的当前状态。否则,对于expression等于零的每个线程,在通过cudaDeviceSynchronize()cudaStreamSynchronize()cudaEventSynchronize()与主机同步后,会向stderr打印一条消息。该消息的格式如下:

复制代码
<filename>:<line number>:<function>:
block: [blockId.x,blockId.x,blockIdx.z],
thread: [threadIdx.x,threadIdx.y,threadIdx.z]
Assertion `<expression>` failed.

针对同一设备的任何后续主机端同步调用都将返回cudaErrorAssert。在调用cudaDeviceReset()重新初始化设备之前,无法向该设备发送更多命令。

如果expression不为零,则内核执行不受影响。

例如,以下程序来自源文件 test.cu

复制代码
#include <assert.h>

__global__ void testAssert(void)
{
    int is_one = 1;
    int should_be_one = 0;

    // This will have no effect
    assert(is_one);

    // This will halt kernel execution
    assert(should_be_one);
}

int main(int argc, char* argv[])
{
    testAssert<<<1,1>>>();
    cudaDeviceSynchronize();

    return 0;
}

将输出:

复制代码
test.cu:19: void testAssert(): block: [0,0,0], thread: [0,0,0] Assertion `should_be_one` failed.

断言(Assertions)主要用于调试目的。它们可能会影响性能,因此建议在生产代码中禁用断言。通过在包含assert.h头文件之前定义NDEBUG预处理器宏,可以在编译时禁用断言。需要注意的是,expression不应是具有副作用的表达式(例如类似(++i > 0)的表达式),否则禁用断言会影响代码的功能。

7.33. 陷阱函数

可以通过从任意设备线程调用__trap()函数来启动陷阱操作。

复制代码
void __trap();

内核执行被中止,并在主机程序中引发中断。

7.34. 断点函数

可以通过从任意设备线程调用__brkpt()函数来暂停内核函数的执行。

复制代码
void __brkpt();
相关推荐
千匠网络3 小时前
破局出海壁垒,千匠网络新能源汽车跨境出海解决方案
人工智能
马丁聊GEO4 小时前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker4 小时前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
一只幸运猫.5 小时前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Promise微笑5 小时前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
深海鱼在掘金5 小时前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent
生信碱移5 小时前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言
workflower5 小时前
具身智能行业应用-生活服务业
大数据·人工智能·机器人·动态规划·生活
智者知已应修善业5 小时前
【51单片机中的打飞机设计】2023-8-25
c++·经验分享·笔记·算法·51单片机
GitCode官方5 小时前
基于昇腾 MindSpeed LLM 玩转 DeepSeekV4-Flash 模型的预训练复现部署
人工智能·开源·atomgit