CUDA C++编程指南(7.25)——C++语言扩展之DPX

DPX是一组函数,能够查找最多三个16位和32位有符号或无符号整数参数的最小值和最大值,以及融合加法和最小/最大值操作,并可选ReLU(钳制到零clamping to zero):

  • 三个参数:__vimax3_s32, __vimax3_s16x2, __vimax3_u32, __vimax3_u16x2, __vimin3_s32, __vimin3_s16x2, __vimin3_u32, __vimin3_u16x2

  • 两个参数,带ReLU激活函数: __vimax_s32_relu, __vimax_s16x2_relu, __vimin_s32_relu, __vimin_s16x2_relu

  • 三个参数,带ReLU激活函数:__vimax3_s32_relu, __vimax3_s16x2_relu, __vimin3_s32_relu, __vimin3_s16x2_relu

  • 两个参数,同时返回哪个参数更小/更大:__vibmax_s32, __vibmax_u32, __vibmin_s32, __vibmin_u32, __vibmax_s16x2, __vibmax_u16x2, __vibmin_s16x2, __vibmin_u16x2

  • 三个参数,比较(第一个 + 第二个)与第三个参数的关系: __viaddmax_s32, __viaddmax_s16x2, __viaddmax_u32, __viaddmax_u16x2, __viaddmin_s32, __viaddmin_s16x2, __viaddmin_u32, __viaddmin_u16x2

  • 三个参数,使用ReLU激活函数,比较(第一个+第二个)与第三个参数和零的关系: __viaddmax_s32_relu, __viaddmax_s16x2_relu, __viaddmin_s32_relu, __viaddmin_s16x2_relu

这些指令在计算能力为9及以上的设备上通过硬件加速执行,在较旧设备上则通过软件模拟运行。

完整API可在CUDA Math API documentation中查阅。

DPX 在实现动态规划算法时特别有用,例如基因组学中的 Smith-Waterman 或 Needleman-Wunsch 算法,以及路径优化中的 Floyd-Warshall 算法。

7.25.1. 示例

三个带符号32位整数的最大值,使用ReLU激活函数

复制代码
const int a = -15;
const int b = 8;
const int c = 5;
int max_value_0 = __vimax3_s32_relu(a, b, c); // max(-15, 8, 5, 0) = 8
const int d = -2;
const int e = -4;
int max_value_1 = __vimax3_s32_relu(a, d, e); // max(-15, -2, -4, 0) = 0

两个32位有符号整数之和的最小值,另一个32位有符号整数和零(ReLU)

复制代码
const int a = -5;
const int b = 6;
const int c = -2;
int max_value_0 = __viaddmax_s32_relu(a, b, c); // max(-5 + 6, -2, 0) = max(1, -2, 0) = 1
const int d = 4;
int max_value_1 = __viaddmax_s32_relu(a, d, c); // max(-5 + 4, -2, 0) = max(-1, -2, 0) = 0

两个无符号32位整数的最小值及确定哪个值更小

复制代码
const unsigned int a = 9;
const unsigned int b = 6;
bool smaller_value;
unsigned int min_value = __vibmin_u32(a, b, &smaller_value); // min_value is 6, smaller_value is true

三对无符号16位整数的最大值

复制代码
const unsigned a = 0x00050002;
const unsigned b = 0x00070004;
const unsigned c = 0x00020006;
unsigned int max_value = __vimax3_u16x2(a, b, c); // max(5, 7, 2) and max(2, 4, 6), so max_value is 0x00070006
相关推荐
民乐团扒谱机1 天前
【深度横评】AI记忆功能全平台拆解:ChatGPT/Claude/Gemini/国产大模型谁真懂你?附隐私避坑指南
人工智能·chatgpt
想放学的刺客1 天前
整理了120道单片机嵌入式面试题与答案,覆盖了硬件电路和C语言等核心领域。
c语言·c++·stm32·单片机·嵌入式硬件·mcu·51单片机
gorgeous(๑>؂<๑)1 天前
【ICLR26-金玥明-新国立】MedAgent-Pro:通过推理智能体工作流实现基于证据的多模态医疗诊断
人工智能
hqyjzsb1 天前
企业AI人才库的搭建体系与长效运营管理方案
人工智能·学习·职场和发展·创业创新·学习方法·业界资讯·改行学it
码农小韩1 天前
AIAgent应用开发——大模型理论基础与应用(五)
人工智能·python·提示词工程·aiagent
拔刀能留住落樱吗、1 天前
AI 落地避坑实战(2026 最新):200 + 项目复盘,数据 + 方案 + 代码思路,少亏 50 万
人工智能
龙山云仓1 天前
No160:AI中国故事-对话耿恭——孤城坚守与AI韧性:极端环境与信念之光
大数据·人工智能·机器学习
Dcs1 天前
花 200 美刀买“黑盒”?Claude Code 这波更新,把程序员当傻子了吧…
人工智能·ai编程·claude
Mr_Lucifer1 天前
成本大幅降低、Agent效率显著提升:CodeFlicker 接入 MiniMax M2.5 与 GLM-5
人工智能·ai编程·产品
Jonathan Star1 天前
Ant Design (antd) Form 组件中必填项的星号(*)从标签左侧移到右侧
人工智能·python·tensorflow