OpenCV CUDA模块设备层-----GPU上执行线程安全的 “原子取最大值” 操作函数

  • 操作系统:ubuntu22.04
  • OpenCV版本:OpenCV4.9
  • IDE:Visual Studio Code
  • 编程语言:C++11

算法描述

这是一个 OpenCV 的 CUDA 模块(cv::cudev) 中封装的原子操作函数,用于在 GPU 上执行线程安全的 "原子取最大值" 操作。

将 *address 和 val 进行比较,如果 val > *address,就将 *address = val。

函数原型

cpp 复制代码
__device__ __forceinline__ int cv::cudev::atomicMax(int* address, int val)

参数

参数名 类型 含义
address int* 一个指向设备内存中整型变量的指针。这是你要进行原子最大值比较的目标地址。
val int 要和目标地址值比较的整数值。如果 val > *address,则更新为 val。

返回值

返回修改前 *address 的原始值。

代码示例

cpp 复制代码
#include <cuda_runtime.h>
#include <cstdio>

__global__ void kernel(int* max_value) {
    int tid = threadIdx.x + blockIdx.x * blockDim.x;

    // 使用 CUDA 内建的 atomicMax
    int old = atomicMax(max_value, tid);

    printf("Thread %d: old = %d, new = %s\n",
           tid, old, (tid > old ? "updated" : "not updated"));
}

int main() {
    int h_max = 0;
    int* d_max;

    // 分配设备内存
    cudaMalloc(&d_max, sizeof(int));
    if (!d_max) {
        printf("Failed to allocate device memory!\n");
        return -1;
    }

    // 初始化设备内存
    cudaMemcpy(d_max, &h_max, sizeof(int), cudaMemcpyHostToDevice);

    // 启动核函数
    kernel<<<1, 10>>>(d_max);

    // 显式同步设备
    cudaDeviceSynchronize();  // 等待核函数执行完成

    // 拷贝结果回主机
    cudaMemcpy(&h_max, d_max, sizeof(int), cudaMemcpyDeviceToHost);

    printf("Final max value: %d\n", h_max);  // 应该输出 9

    // 清理资源
    cudaFree(d_max);
    return 0;
}

运行结果

bash 复制代码
Thread 0: old = 0, new = not updated
Thread 1: old = 0, new = updated
Thread 2: old = 1, new = updated
Thread 3: old = 2, new = updated
Thread 4: old = 3, new = updated
Thread 5: old = 4, new = updated
Thread 6: old = 5, new = updated
Thread 7: old = 6, new = updated
Thread 8: old = 7, new = updated
Thread 9: old = 8, new = updated
Final max value: 9
相关推荐
云知谷4 小时前
【C++基本功】C++适合做什么,哪些领域适合哪些领域不适合?
c语言·开发语言·c++·人工智能·团队开发
rit84324995 小时前
基于MATLAB实现基于距离的离群点检测算法
人工智能·算法·matlab
初学小刘6 小时前
深度学习:从图片数据到模型训练(十分类)
人工智能·深度学习
递归不收敛6 小时前
大语言模型(LLM)入门笔记:嵌入向量与位置信息
人工智能·笔记·语言模型
之墨_7 小时前
【大语言模型】—— 自注意力机制及其变体(交叉注意力、因果注意力、多头注意力)的代码实现
人工智能·语言模型·自然语言处理
从孑开始8 小时前
ManySpeech.MoonshineAsr 使用指南
人工智能·ai·c#·.net·私有化部署·语音识别·onnx·asr·moonshine
涛涛讲AI8 小时前
一段音频多段字幕,让音频能够流畅自然对应字幕 AI生成视频,扣子生成剪映视频草稿
人工智能·音视频·语音识别
可触的未来,发芽的智生8 小时前
新奇特:黑猫警长的纳米世界,忆阻器与神经网络的智慧
javascript·人工智能·python·神经网络·架构
WWZZ20258 小时前
快速上手大模型:机器学习2(一元线性回归、代价函数、梯度下降法)
人工智能·算法·机器学习·计算机视觉·机器人·大模型·slam
AKAMAI9 小时前
数据孤岛破局之战 :跨业务分析的难题攻坚
运维·人工智能·云计算