trtexec 日志内容解析

1.ONNX模型加载及创建

解析模型耗时0.14秒,总共126层,后续trt会针对该模型进行优化

2.计算图优化

优化计算图,可以使得推理速度更快,在本案例中,将模型从126层优化到57层

[08/20/2023-11:59:52] [I] [TRT] Graph optimization time: 0.0150853 seconds.

计算图优化中采用了大量的层融合,融合的原理是尽可能地合并不同层之间相关的计算,避免不必要的中间tensor生成, 减少内存读写, 降低计算消耗,最终提高推理效率

常见的优化方法如下:

ConstShuffleFusion: 在fc层的bias中使用,可以将常量shuffle到bias数据中,减少冗余计算。 ShuffleShuffleFusion: 在flatten层中使用,可以减少shuffle的计算次数。 ConvReshapeBiasAddFusion: 将conv层的输出reshape,然后进行bias add的计算融合到一起,减少运算耗时。

ConvReluFusion: 将conv层和后续的Relu激活函数层融合,可以减少一次Relu的计算。 ConvEltwiseSumFusion: 将conv层和element-wise add层融合,避免重复计算。 ReduceToPoolingFusion: 将reduce层修改为pooling层,减少运算消耗。

ConcatReluFusion: 将concat层和relu层融合,减少relu计算次数。

BiasSoftmaxFusion: 融合bias层和softmax层,减少冗余计算。

3. 各网络层实现方式选择

网络层具体的实现有多种方式,例如不同的底层库、不同的实现算法、不同的算法策略,在TensorRT中会把所有的实 现方式跑一遍,挑选速度最优的实现方式。

在实现网络层的过程中,runner和tactic是TensorRT中用于实现layer的关键组件。

runner代表着一种实现layer的算法或代码路径。例如,卷积层可以通过cudnn、cublas或者TensorRT自身的cask实 现。runner封装了具体的实现算法。

tactic代表具体的实现方案。每个runner下面可以有多个tactic,对应不同的优化方法。例如cask convolution runner下 面可以有基于tensor core的tactic,或是各种tilesize的tactic等等。tactic包含了针对特定layer进行各种优化的代码实现。

所以TensorRT通过组合不同的runner和tactic,就可以得到层的多种实现方式。然后通过Auto Tuner来测试不同组合的性 能,选择出最优的实现。

例如,对于一个卷积层:

runner可以是cudnn、cublas、cask convolution等

cask convolution下面可以有基于tensor core的tactic,tile size为32x32或64x64的tactic等等

最终会选择出cask convolution + 64x64 tile size这个tactic组合作为最优实现

在本日志中,第一个runner跑的是conv_0 + Relu_1,最终选择的Tactic Name是 0x9cb304e2edbc1221,耗时0.040 秒。

最终trt将57个层都进行了Computing costs,得到各网络层的最优实现方案。

除了网络层,还需要reformat layer,它的作用是改变tensor的格式,将前一层的输出重新排布成后一层所需的格式。这 样就可以使得两层之间的tensor兼容,然后进行融合。

例如:Conv_0 + Relu_1层需要[50176,1:4,224,1]格式的tensor作为输入,而输入层输出的是[150528,50176,224,1]格 式,所以在输入层和Conv_0层之间加入了reformat layer,将tensor重新排布成Conv层需要的格式。

最终添加了25个reformat layer,模型变为了82层。

4. 存储空间占用情况

介绍各网络层存储占用情况,以及汇总,例如本案例,engine的GPU占用是107MB

5.engine构建情况

对完成好的engine各网络层、网络层对应的kernel选择情况进行打印。 可以看到engine的构建耗时15.3秒

6.推理耗时统计

进行10次推理,依次得到以下信息,同时相应的统计值。

Throughput:模型的推理吞吐量,以每秒推理数量(QPS)为单位。实际图片量需要乘以batchsize。

Latency:模型一次推理的延迟时间统计信息,包括最小值、最大值、平均值、中位数和百分位数(90%、95%和 99%)。

Enqueue Time:将数据传输到GPU的时间统计信息,

H2D Latency:将主机数据传输到GPU的延迟时间统计信息,

GPU Compute Time:模型在GPU上运行的计算时间统计信息

D2H Latency:从GPU将数据传输回主机的延迟时间统计信息

Total Host Walltime:模型推理的总时间,包括传输数据、计算和传输数据回主机的时间。

Total GPU Compute Time:模型在GPU上的总计算时间。

6.trt模型推理

通过推理trt模型,可以查看网络层信息、网络层推理耗时情况

可以看到,卷积层耗时较大

相关推荐
tangjunjun-owen7 分钟前
第四节:GLM-4v-9b模型的tokenizer源码解读
人工智能·glm-4v-9b·多模态大模型教程
冰蓝蓝12 分钟前
深度学习中的注意力机制:解锁智能模型的新视角
人工智能·深度学习
橙子小哥的代码世界20 分钟前
【计算机视觉基础CV-图像分类】01- 从历史源头到深度时代:一文读懂计算机视觉的进化脉络、核心任务与产业蓝图
人工智能·计算机视觉
新加坡内哥谈技术1 小时前
苏黎世联邦理工学院与加州大学伯克利分校推出MaxInfoRL:平衡内在与外在探索的全新强化学习框架
大数据·人工智能·语言模型
fanstuck2 小时前
Prompt提示工程上手指南(七)Prompt编写实战-基于智能客服问答系统下的Prompt编写
人工智能·数据挖掘·openai
lovelin+v175030409662 小时前
安全性升级:API接口在零信任架构下的安全防护策略
大数据·数据库·人工智能·爬虫·数据分析
wydxry2 小时前
LoRA(Low-Rank Adaptation)模型微调
深度学习
唐小旭2 小时前
python3.6搭建pytorch环境
人工智能·pytorch·python
洛阳泰山2 小时前
MaxKB基于大语言模型和 RAG的开源知识库问答系统的快速部署教程
人工智能·语言模型·开源·rag·maxkb
程序猿阿伟2 小时前
《Java 优化秘籍:计算密集型 AI 任务加速指南》
java·开发语言·人工智能