简介

该文档介绍使用Tensorflow框架，测试 NVIDIA 驱动的常见python 代码。

环境信息

|----|------------|-----------|----|
| 编号 | 软件 | 软件版本 | 备注 |
| 01 | 驱动 | 470.57.02 | |
| 02 | cuda 版本 | 11.2 | |
| 03 | cudnn 版本 | 8.1.1.33 | |
| 04 | tensorflow | 2.6 | |

功能测试代码：

复制代码

import tensorflow as tf
with tf.device('/CPU:1'):
  a = tf.constant([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]])
  b = tf.constant([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0]])

c = tf.matmul(a, b)
print(c)

GPU 压力测试代码：

复制代码

# On Titan X (Pascal)
# 8192 x 8192 matmul took: 0.10 sec, 11304.59 G ops/sec
# http://stackoverflow.com/questions/41804380/testing-gpu-with-tensorflow-matrix-multiplication

import os
import sys
import tensorflow as tf
import time
import timeit
import datetime

n=1000000000 #10亿次
dtype = tf.float32
with tf.device("/gpu:0"):
    matrix1 = tf.Variable(tf.ones((1, n), dtype=dtype))
    matrix2 = tf.Variable(tf.ones((n, 1), dtype=dtype))


def gpu_run():
    with tf.device("/gpu:0"):
        product = tf.matmul(matrix1, matrix2)
    return product

print("开始计算:", time.strftime('%Y-%m-%d %H:%M:%S',time.localtime()))
gpu_time = timeit.timeit(gpu_run, number=1000)
print("计算结束:", time.strftime('%Y-%m-%d %H:%M:%S',time.localtime()))

CPU/GPU 压测比较代码：

复制代码

# 屏蔽tensorflow输出的log信息
# 注意：代码在import tensorflow之前
import os
os.environ["TF_CPP_MIN_LOG_LEVEL"] = "2"

import sys
print("python的版本信息：",sys.version)
#python的版本信息： 3.7.9 (default, Aug 31 2020, 17:10:11) [MSC v.1916 64 bit (AMD64)]

import tensorflow as tf

'''
验证GPU相对于CPU,在并行计算优势明显
'''
n=100000000 #1亿次

# 创建在 CPU 环境上运算的 2 个矩阵
with tf.device('/cpu:0'):
    cpu_a = tf.random.normal([1, n])
    cpu_b = tf.random.normal([n, 1])
    print(cpu_a.device, cpu_b.device)

# 创建使用 GPU 环境运算的 2 个矩阵
with tf.device('/gpu:0'):
    gpu_a = tf.random.normal([1, n])
    gpu_b = tf.random.normal([n, 1])
    print(gpu_a.device, gpu_b.device)

import timeit

def cpu_run(): # CPU 运算函数
    with tf.device('/cpu:0'):
        c = tf.matmul(cpu_a, cpu_b)
    return c

def gpu_run():# GPU 运算函数
    with tf.device('/gpu:0'):
        c = tf.matmul(gpu_a, gpu_b)
    return c

# 第一次计算需要热身，避免将初始化时间结算在内
cpu_time = timeit.timeit(cpu_run, number=100)
gpu_time = timeit.timeit(gpu_run, number=100)
print('首先计算10次（含热身环境）的平均时间,CPU计算消耗时间：%.3fms,GPU计算消耗时间：%.3fms!'%(cpu_time*1000, gpu_time*1000) )

#正式计算10次，取平均时间
cpu1_time = timeit.timeit(cpu_run, number=10)
gpu1_time = timeit.timeit(gpu_run, number=10)

print('正式计算10次的平均时间,CPU计算消耗时间：%.3fms,GPU计算消耗时间：%.3fms!'%(cpu1_time*1000, gpu1_time*1000))

压测

|----|----------|------|------|---------|------|-------|--------|
| 编号 | 先卡类型 | 显卡架构 | 计算时间 | cuda 版本 | TF版本 | 算力使用率 | 备注 |
| 01 | P40-22G | 帕斯卡 | 17秒 | 10.1 | 2.3 | 100% | x86_64 |
| 02 | T4-16G | 图灵 | 15秒 | 11.2 | 2.6 | 100% | x86_64 |
| 03 | V100-32G | 沃尔塔 | 7秒 | 10.1 | 2.3 | 100% | x86_64 |
| 04 | A10-24G | 安培 | 10秒 | 11.2 | 2.6 | 100% | x86_64 |
| 05 | A100-40G | 安培 | 6秒 | 11.2 | 2.6 | 100% | x86_64 |

1. 背景目的

对现有gpu的性能没有相关的测试，需要进行摸底测试

预期测试目的：

完成gpu对训练及预测服务的性能测试
对现场部署及使用提供支持

2. 测试环境

OS：Centos7

Linux kernel：Linux 3.10.0-1160.90.1.el7.x86_64

Docker Version：1.13.1

Docker Image：nvcr.io/nvidia/tensorflow:23.03-tf1-py3 (V1.15版本)

Docker OS：Ubuntu 20.04.5 LTS

Nvidia GPU Version：NVIDIA-SMI 470.161.03

CUDA Version: 12.1

TensorFlow Version：1.15.1

python Version：3.8.10

3. 测试方案

3.1、训练性能测试方案

训练文件来源：GitHub - tensorflow/benchmarks: A benchmark framework for Tensorflow
训练模型：resnet50
训练数据集：全量imagenet数据，总大小约150G，图片张数超过1400w
测试步骤：
- 将全量的已转换为tfrecord格式的imagenet数据上传至存储卷下
- 创建3个notebook任务，资源配置如下：

|-----|-----|--------|
| CPU | GPU | memory |
| 6 | 0.5 | 20G |
| 6 | 1 | 20G |
| 12 | 2 | 40G |

上传tf_cnn_benchmark代码
运行测试指令：python tf_cnn_benchmarks.py --model=resnet50 --num_gpus= ${NUM_GPUS} --batch_size=32 --variable_update=parameter_server --data_dir=$ {DATA_DIR} --num_epochs=2

${DATA_DIR}为训练数据集文件train目录的路径

${NUM_GPUS}为当前notebook任务申请的GPU数量

2. 预测性能测试方案：

预测服务模型：TensorFlow-Resnet50 v1，SavedModel格式
模型来源：https://tfhub.dev/tensorflow/resnet_50/classification/1
发压工具：
- 下载
- 说明：封装locust的性能测试工具，支持模型预测的性能测试。
测试步骤：
- 模型中心导入TensorFlow-Resnet50
- 创建模型对应服务，资源配置如下：

|-----|-----|--------|
| CPU | GPU | MEMORY |
| 4 | 0.5 | 8G |
| 4 | 1 | 8G |
| 8 | 2 | 16G |

创建相关应用
- 利用发压工具对服务接口持续发压，观察压力测试结果及压测期间gpu显存使用情况及gpu使用率

一、GPU性能测试数据报告如下

1 需求背景

使用性能评估对服务终端进行压力测试，评估服务端性能，有助于定位性能瓶颈。

由于全量版本过多，高优测试一轮每个框架的最新版本，模型性能。

2. 测试方案

2.1 模型预测配置

每个副本默认资源配置
1. 副本数：1
2. CPU：4
3. 内存：8GB / 8192MB
4. GPU：
  1. 仅用CPU的模型预测：0
  2. 依赖GPU（或必须使用GPU才能发挥性能的模型预测：TensorFlow、Pytorch、Paddle）：1
5. GPU类型：Tesla-T4

注意

当测试时，发现服务的资源配置成为性能瓶颈时，应适当改大资源，否则无法测试出最大的性能数据。

2.2 模型选择

|-----------------------|----------------------------------------|--------------|---------|-------------|-------------------------------------------------------------|
| 模型类型 | 镜像名称：镜像tag | | 是否使用GPU | 模型类型 | 其他说明 |
| Sklearn-v0.20 | infsms-sklearn0.20.2 | e0828eb1d118 | 否 | modelserver | - |
| GBDT-v1.2.0 | infsms-xgboost1.2.0 | d09b82ae7baa | 否 | modelserver | 服务需要设置环境变量： OMP_NUM_THREADS：1 (NUM_WORKERS建议设置，本次测试没有设置此参数) |
| H2O-v3.26.0.5 | infsms-h2o3.26.0.5 | 929fa6a953d1 | 否 | modelserver | - |
| R-3.5.2 | infsms-r3.5.2 | 64ff114623cb | 否 | modelserver | 多并发请求成功率全部低于30 |
| PMML | infsms-pmml0.9.11 | d0276f6c47d9 | 否 | modelserver | 多并发请求成功率全部低于50 |
| TensorFlow-v2.6.0 | infsms-tensorflow2.6.0-cuda11.2-cudnn8 | e88ef44c5251 | 是 | modelserver | - |
| paddle-2.1 | infsms-paddle2.1.0-cuda10.1-cudnn7 | 683ef1373304 | 是 | modelserver | - |
| PyTorch-v1.10.1 | infsms-pytorch1.10.0-cuda10.2-cudnn7 | 8812b855b620 | 是 | modelserver | - |
| OONX-1.8 | infsms-onnx1.3.0-cuda10.1-cudnn7 | 9840c6d7a900 | 是 | modelserver | 模型起预测onnx框架image信息匹配的不对 |

2.3 性能指标说明

最大并发：长时间压测下，预测服务能承受的稳定无异常的最大并发数。
最大TPS：长时间压测下，预测服务能达到的最大TPS
资源使用率：
1. 包括CPU使用率、GPU算力平均使用率、GPU显存平均使用率、内存使用率
2. 来自前端页面用户可见的副本监控数据（获取自性能评估报告、 Prometheus监控数据）
3. 仅列出压测过程中采样到的最大占用率

3 模型预测性能

3.1 GBDT-v1.2.0模型预测

|------------------|---------|---------|---------|---------|-----------|-----------|---------|
| 性能指标 | pod性能数据 | | | | | | |
| 性能指标 | 1个并发 | 中间数据 | 最大并发 | 中间数据 | 中间数据 | 中间数据 | 中间数据 |
| 单副本资源数 | 4/0/8G | 4/0/8G | 4/0/8G | 4/0/8G | 4/0/8G | 4/0/8G | 4/0/8G |
| Users（并发数） | 1 | 30 | 50 | 100 | 300 | 500 | 1000 |
| 递增速率（VU/s） | 1 | 2 | 5 | 10 | 20 | 35 | 66 |
| 发压时间 | 30min | 30min | 30min | 30min | 30min | 30min | 30min |
| 发送请求数 | 537930 | 1406038 | 1408861 | 1405880 | 814857 | 822581 | 873953 |
| req/s（QPS） | 299.02 | 782.87 | 784.44 | 782.78 | 452.95 | 457.24 | 485.8 |
| failures（整体失败率） | 0 | 0 | 0 | 0 | 0.68% | 1.64% | 3.61% |
| failures/s | 0 | 0 | 0 | 0 | 3.08 | 7.49 | 17.5 |
| 响应时间（最大） | 75 | 77 | 119 | 1311 | 91852 | 91792 | 92606 |
| 响应时间（最小） | 2 | 2 | 2 | 6 | 5 | 8 | 18 |
| 响应时间（中位数） | 3 | 38 | 63 | 130 | 140 | 140 | 140 |
| 响应时间（平均值） | 2.97 | 37.62 | 64.03 | 126.88 | 664.91 | 1184.59 | 2365.61 |
| 响应时间 latency 95% | 3 | 40 | 67 | 130 | 270 | 290 | 3400 |
| 响应时间 latency 99% | 4 | 42 | 69 | 140 | 7200 | 59000 | 61000 |
| CPU使用率 | 20% | 53% | 53.06% | 53.12% | 46%->32% | 40%->34% | 35% |
| 内存使用率 | 2.34% | 2.34% | 2.35% | 2.37% | 2.46% | 2.65% | 3.19% |

分析说明：

最大并发为100
30min发压时间的平均QPS 最大是784.44左右
并发达到50后，QPS基本稳定，超过100并发时，开始出现报错：报错基本集中在发压后几分钟内，几分钟后请求成功率逐步上升，趋势图如下

3.2 Sklearn-v0.20 模型预测

|------------------|--------|---------|---------|-----------|
| 性能指标 | pod性能数据 ||||
| 性能指标 | 1个并发 | 中间数据 | 最大并发 | 中间数据 |
| 单副本资源数 | 4/0/8G | 4/0/8G | 4/0/8G | 4/0/8G |
| Users（并发数） | 1 | 50 | 100 | 300 |
| 递增速率（VU/s） | 1 | 5 | 10 | 20 |
| 发压时间 | 30min | 30min | 30min | 30min |
| 发送请求数 | 450442 | 1255059 | 1260003 | 690064 |
| req/s（TPS） | 250.38 | 697.64 | 700.39 | 383.58 |
| failures（整体失败率） | 0 | 0 | 0 | 0.86% |
| failures/s | 0 | 0 | 0 | 3.29 |
| 响应时间（最大） | 1046 | 1078 | 1343 | 91855 |
| 响应时间（最小） | 2 | 3 | 5 | 15 |
| 响应时间（中位数） | 3 | 70 | 140 | 150 |
| 响应时间（平均值） | 3.07 | 70.3 | 141.36 | 772.63 |
| 响应时间 latency 95% | 3 | 77 | 160 | 1100 |
| 响应时间 latency 99% | 5 | 83 | 160 | 12000 |
| CPU使用率 | 19% | 54.27% | 54.33% | 54%->34% |
| 内存使用率 | 1.95% | 2% | 2.02% | 2.15% |

分析说明

最大并发为200
30min发压时间的平均TPS 最大是700.39左右
并发达到100后，TPS 基本稳定，超过100并发时，开始出现报错。

3.3 H2O-V3.26.5模型预测

|------------------|--------|--------|--------|--------|---------|----------|
| 性能指标 | pod性能数据 ||||||
| 性能指标 | 1个并发 | 最大并发 | 中间数据 | 中间数据 | 中间数据 | 中间数据 |
| 单副本资源数 | 4/0/8G | 4/0/8G | 4/0/8G | 4/0/8G | 4/0/8G | 4/0/8G |
| Users（并发数） | 1 | 50 | 100 | 300 | 500 | 1000 |
| 递增速率（VU/s） | 1 | 5 | 10 | 20 | 35 | 66 |
| 发压时间 | 30min | 30min | 30min | 30min | 30min | 30min |
| 发送请求数 | 29799 | 28356 | 10579 | 11883 | 18374 | 36941 |
| req/s（TPS） | 16.59 | 15.79 | 5.9 | 6.62 | 10.24 | 20.59 |
| failures（整体失败率） | 0 | 0 | 0.59 | 66.66 | 75.15 | 99.91 |
| 响应时间（最大） | 1671 | 6552 | 61043 | 92294 | 92502 | 61352.15 |
| 响应时间（最小） | 33 | 102 | 1963 | 21743 | 21946 | 26621 |
| 响应时间（中位数） | 57 | 3100 | 8300 | 60000 | 60000 | 61000 |
| 响应时间（平均值） | 59.57 | 3166 | 17643 | 55670 | 61223.9 | 61352.15 |
| 响应时间 latency 95% | 80 | 3900 | 38000 | 67000 | 78000 | 85000 |
| 响应时间 latency 99% | 94 | 4800 | 58000 | 92000 | 92000 | 92000 |
| CPU使用率 | 50% | 76.43% | 91.5% | 92.5% | 94.14% | 94.56% |
| 内存使用率 | 20% | 33.34% | 35.09% | 35.62% | 36.14% | 37.18% |

分析说明

最大并发为50
30min发压时间的平均TPS 最大是16.59左右
并发超过50时，开始出现报错。

3.4 Paddle-v2.1模型预测

|------------------|--------|------------|-------------------|----------|----------|----------|
| 性能指标 | pod性能数据 ||||||
| 性能指标 | 1个并发 | 最大并发 | 中间数据 | 中间数据 | 中间数据 | 中间数据 |
| 单副本资源数 | 4/1/8G | 4/1/8G | 4/1/8G | 4/1/8G | 4/1/8G | 4/1/8G |
| Users（并发数） | 1 | 50 | 100 | 300 | 500 | 1000 |
| 递增速率（VU/s） | 1 | 5 | 10 | 20 | 35 | 66 |
| 发压时间 | 30min | 30min | 30min | 30min | 30min | 30min |
| 发送请求数 | 20305 | 50549 | 50534 | 46758 | 57051 | 81977 |
| req/s（TPS） | 11.29 | 28.1 | 28.14 | 26.03 | 31.77 | 45.64 |
| failures（整体失败率） | 0 | 0 | 0.37 | 16.19 | 31.11 | 51.93 |
| 响应时间（最大） | 1366 | 3977 | 62301 | 92458 | 91758 | 109176 |
| 响应时间（最小） | 33 | 147 | 531 | 101 | 59 | 1 |
| 响应时间（中位数） | 83 | 1800 | 3500 | 3600 | 4700 | 7500 |
| 响应时间（平均值） | 79.65 | 1768.93 | 3592.37 | 12314.43 | 17432.58 | 26336.36 |
| 响应时间 latency 95% | 87 | 1800 | 3600 | 60000 | 60000 | 61000 |
| 响应时间 latency 99% | 90 | 1800 | 3600 | 67000 | 68000 | 68000 |
| CPU使用率 | 11.73 | 26.80 | 26.42 | 26.42 | 26.34 | 23.13 |
| 内存使用率 | 21.39 | 21.42 | 21.46 | 21.60 | 22.11 | 22.79 |
| AI加速卡算力平均使用率 | 21.30 | 16.64 后期是0 | 17.22 中途有使用率为0的一段 | 72.27 | 59.12 | 58.96 |
| AI加速卡显存平均使用率 | 5.94 | 5.94 | 5.94 | 5.94 | 5.94 | 5.94 |

分析说明

最大并发为50
30min发压时间的平均TPS 最大是28.1左右
并发超过50时，开始出现报错。加速卡算力平均使用率存在0的情况。

3.5 Tensorflow-v2.6模型预测

|------------------|--------|---------|---------|---------|----------|----------|
| 性能指标 | pod性能数据 ||||||
| 性能指标 | 1个并发 | 中间数据 | 最大并发 | 中间数据 | 中间数据 | 中间数据 |
| 单副本资源数 | 4/1/8G | 4/1/8G | 4/1/8G | 4/1/8G | 4/1/8G | 4/1/8G |
| Users（并发数） | 1 | 50 | 100 | 300 | 500 | 1000 |
| 递增速率（VU/s） | 1 | 5 | 10 | 20 | 35 | 66 |
| 发压时间 | 30min | 30min | 30min | 30min | 30min | 30min |
| 发送请求数 | 20992 | 78283 | 76802 | 65464 | 78072 | 103178 |
| req/s（TPS） | 11.67 | 43.51 | 42.76 | 36.45 | 43.4 | 57.35 |
| failures（整体失败率） | 0 | 0 | 0 | 11.94 | 21.95 | 41.15 |
| 响应时间（最大） | 1892 | 2224 | 63084 | 92619 | 92785 | 91528 |
| 响应时间（最小） | 36 | 78 | 153 | 872 | 1004 | 1 |
| 响应时间（中位数） | 86 | 1100 | 2300 | 2900 | 2900 | 3700 |
| 响应时间（平均值） | 76.74 | 1139.09 | 2344.31 | 8678.17 | 13413.85 | 20421.58 |
| 响应时间 latency 95% | 90 | 1300 | 2500 | 60000 | 60000 | 60000 |
| 响应时间 latency 99% | 92 | 1300 | 2600 | 61000 | 61000 | 61000 |
| CPU使用率 | 14.16 | 53.05 | 53.08 | 53.04 | 42.71 | 42.73 |
| 内存使用率 | 29.98 | 30.34 | 30.49 | 30.83 | 31.32 | 32.01 |
| AI加速卡显存平均使用率 | 96.44 | 96.44 | 96.44 | 96.44 | 96.44 | 96.44 |
| AI加速卡算力平均使用率 | 32.58 | 120.36 | 120.47 | 136.48 | 119.38 | 134.65 |

分析说明

最大并发为100
30min发压时间的平均QPS 最大是42.76左右
并发超过100时，开始出现报错。
并发超过100时，加速卡算力平均使用率存在一直为96.44的情况。.
并发超过50时，AI加速卡算力平均使用率超过100%。

3.6 Pytorch-v1.10模型预测

|------------------|---------- | 性能指标 | 性能指标 | 单副本资源数 | Users（并发数） | 1 | 递增速率（VU/s） | 1 | 发压时间 | 发送请求数 | req/s（TPS） | 11.11 | failures（整体失败率） | 0 | 响应时间（最大） | 响应时间（最小） | 响应时间（中位数） | 响应时间（平均值） | 响应时间 latency 95% | 87 | 响应时间 latency 99% | 89 | CPU使用率 | 11.92 | AI加速卡显存平均使用率 | AI加速卡算力平均使用率 | 内存使用率 --|-----------|-----------|---------|----------|----------|
| pod性能数据 ||||||
| 1个并发 | 最大并发 | 中间数据 | 中间数据 | 中间数据 | 中间数据 |
| 4/1/8G | 4/1/8G | 4/1/8G | 4/1/8G | 4/1/8G | 4/1/8G |
| 50 | 100 | 300 | 500 | 1000 |
| 5 | 10 | 20 | 35 | 66 |
| 30min | 30min | 30min | 30min | 30min | 30min |
| 19985 | 50643 | 49420 | 47723 | 55325 | 83476 |
| 28.15 | 27.52 | 26.57 | 30.8 | 46.48 |
| 0 | 0.16 | 15.29 | 30.06 | 51.07 |
| 123 | 3926 | 54769 | 92485 | 92408 | 91646 |
| 34 | 165 | 599 | 228 | 1006 | 2 |
| 83 | 1800 | 3600 | 3700 | 6200 | 7300 |
| 81.1 | 1766.19 | 3656.31 | 12284.4 | 18043.53 | 24809.95 |
| 1800 | 3600 | 60000 | 60000 | 60000 |
| 1800 | 3700 | 67000 | 66000 | 61000 |
| 26.84 | 26.73 | 23.50 | 24.78 | 22.76 |
| 8.87 | 8.87 | 8.87 | 8.87 | 8.87 | 8.87 |
| 6.4 出现为0情况 | 11 出现为0情况 | 30 出现为0情况 | 70 | 60 | 64.9 |
| 32.72 | 35.72 | 32.80 | 33.15 | 33.56 | 34.38 |

分析说明

最大并发为50
30min发压时间的平均TPS 最大是28.15左右
并发超过50时，开始出现报错
加速卡算力平均使用率存在一直为8.87的情况
并发小于300时，AI加速卡算力平均使用率出现为0时间段

GPU压力测试篇- TensorFlow

简介

环境信息

功能测试代码：

GPU 压力测试代码：

CPU/GPU 压测比较代码：

压测

1. 背景目的

2. 测试环境

3. 测试方案

3.1、训练性能测试方案

2. 预测性能测试方案：

一、GPU性能测试数据报告如下

1 需求背景

2. 测试方案

2.1 模型预测配置

2.2 模型选择

2.3 性能指标说明

3 模型预测性能

3.1 GBDT-v1.2.0模型预测

分析说明：

3.2 Sklearn-v0.20 模型预测

分析说明

3.3 H2O-V3.26.5模型预测

分析说明

3.4 Paddle-v2.1模型预测

分析说明

3.5 Tensorflow-v2.6模型预测

分析说明

3.6 Pytorch-v1.10模型预测

分析说明