【征程 6 工具链性能分析与优化-1】编译器预估 perf 解读与性能分析

01 引言

本篇文章中，我们将首先介绍 layerdetails 中的参数信息，然后将结合实例分析如何利用 layerdetails 来分析模型的性能瓶颈，进而对模型的性能进行优化。

征程 6 工具链目前提供了两种方式生成性能评估报告：

使用hb_compile工具编译模型时会自动生成性能评估报告；
编译出 hbm 模型后，使用编译器提供的 python API hbm_perf生成性能评估报告，这里需要注意，调用 compile 接口编译模型时需要开启 debug 后才能生成 layerdetails。

性能预估报告包括 html 和 json 两个版本，通常看 html 即可。

html 中包括 Summary、Temporal Statistics 和 Layer Details 这 3 个部分，下面将逐一介绍。

分析过程

1.观察 computing 曲线是否有波动，带宽瓶颈会引起它的波动：

如上图，此模型的 computing 曲线波动较大，模型可能存在带宽瓶颈。

2.进一步观察 load&store 柱状图，并配合 computing 曲线：

可以看到，图中由多处的 load&store 柱状图高于 computing 曲线，这些地方可能存在了带宽瓶颈。

3.根据时态统计图中的时间轴，观察在某区间的 layer detail：

如上图，标记了 6 处 load&store 柱状图高于 computing 的地方，对应的时间为：

然后根据 layerdetails 的 active period of time 查看以上时间点的对应算子：

可以看到引起带宽瓶颈的算子的 Softmax_458_mul、MatMul_459，onnx 模型中对应的子结构为：

可以看到引起带宽瓶颈的算子的 Softmax_765_mul、MatMul_766，onnx 模型中对应的子结构为：

可以看到引起带宽瓶颈的算子的 Softmax_968_mul、MatMul_969，onnx 模型中对应的子结构为：

可以看到引起带宽瓶颈的算子的 Softmax_1171、MatMul_1172，onnx 模型中对应的子结构为：

可以看到引起带宽瓶颈的算子的 Softmax_1374、MatMul_1375，onnx 模型中对应的子结构为：

综合以上分析结果可知，此模型中引起性能问题的是 Softmax 和 MatMul 算子组成的子结构，在下一篇文章中，我们将介绍模型性能相关的优化策略。