DPX是一组函数,能够查找最多三个16位和32位有符号或无符号整数参数的最小值和最大值,以及融合加法和最小/最大值操作,并可选ReLU(钳制到零clamping to zero):
-
三个参数:
__vimax3_s32,__vimax3_s16x2,__vimax3_u32,__vimax3_u16x2,__vimin3_s32,__vimin3_s16x2,__vimin3_u32,__vimin3_u16x2 -
两个参数,带ReLU激活函数:
__vimax_s32_relu,__vimax_s16x2_relu,__vimin_s32_relu,__vimin_s16x2_relu -
三个参数,带ReLU激活函数:
__vimax3_s32_relu,__vimax3_s16x2_relu,__vimin3_s32_relu,__vimin3_s16x2_relu -
两个参数,同时返回哪个参数更小/更大:
__vibmax_s32,__vibmax_u32,__vibmin_s32,__vibmin_u32,__vibmax_s16x2,__vibmax_u16x2,__vibmin_s16x2,__vibmin_u16x2 -
三个参数,比较(第一个 + 第二个)与第三个参数的关系:
__viaddmax_s32,__viaddmax_s16x2,__viaddmax_u32,__viaddmax_u16x2,__viaddmin_s32,__viaddmin_s16x2,__viaddmin_u32,__viaddmin_u16x2 -
三个参数,使用ReLU激活函数,比较(第一个+第二个)与第三个参数和零的关系:
__viaddmax_s32_relu,__viaddmax_s16x2_relu,__viaddmin_s32_relu,__viaddmin_s16x2_relu
这些指令在计算能力为9及以上的设备上通过硬件加速执行,在较旧设备上则通过软件模拟运行。
完整API可在CUDA Math API documentation中查阅。
DPX 在实现动态规划算法时特别有用,例如基因组学中的 Smith-Waterman 或 Needleman-Wunsch 算法,以及路径优化中的 Floyd-Warshall 算法。
7.25.1. 示例
三个带符号32位整数的最大值,使用ReLU激活函数
const int a = -15;
const int b = 8;
const int c = 5;
int max_value_0 = __vimax3_s32_relu(a, b, c); // max(-15, 8, 5, 0) = 8
const int d = -2;
const int e = -4;
int max_value_1 = __vimax3_s32_relu(a, d, e); // max(-15, -2, -4, 0) = 0
两个32位有符号整数之和的最小值,另一个32位有符号整数和零(ReLU)
const int a = -5;
const int b = 6;
const int c = -2;
int max_value_0 = __viaddmax_s32_relu(a, b, c); // max(-5 + 6, -2, 0) = max(1, -2, 0) = 1
const int d = 4;
int max_value_1 = __viaddmax_s32_relu(a, d, c); // max(-5 + 4, -2, 0) = max(-1, -2, 0) = 0
两个无符号32位整数的最小值及确定哪个值更小
const unsigned int a = 9;
const unsigned int b = 6;
bool smaller_value;
unsigned int min_value = __vibmin_u32(a, b, &smaller_value); // min_value is 6, smaller_value is true
三对无符号16位整数的最大值
const unsigned a = 0x00050002;
const unsigned b = 0x00070004;
const unsigned c = 0x00020006;
unsigned int max_value = __vimax3_u16x2(a, b, c); // max(5, 7, 2) and max(2, 4, 6), so max_value is 0x00070006