npu硬件实现cnn标准卷积计算细节

input image 细节

示例输出Image为计算中间过程的输入图像，大小为16x10x10(channel\*width\*high)
示例的卷积核为3x3
将image从ddr移动的计算单元的可视化过程(stride为1)

第一个3x3
第二个3x3
第三个3x3
（直到移动完整个width后，开始从high维度做stride）第1次移动high维度的3x3
第1次移动high维度的第2个3x3

按照如上规则将整个image排列好准备进入计算单元（这是一个动态的过程，究竟一次能排列多少个3x3看硬件的存储资源能力，不一定一次排列好所有数据）
完整的将image读入排列好准备计算的示例

input weight 细节

Weight的大小取决于输入输出
示例weight为16\*8\*(3x3)（input_channel \* output_channel\*kernel_size)
weight从ddr移动到计算单元相对比较简单，依次取出所有的weight进行计算即可（每次取出多少看硬件的计算资源大小，示例硬件计算资源为16\*3x3，一次可以完成1个所有input通道的3x3卷积计算）

硬件资源介绍

硬件资源为（16\*9）个乘法器和（14\*9 + 8）个加法器, 意味着一次可以对一个3x3的图形的16个通道完成一次乘加
由加法的交换律可得在channel维度和image维度的加法的前后并不影响计算结果，示例的硬件资源先做channel维度的加法，再做kernel的加法
npu的实现根据需求会有各种不同，本文只是做了一个很小的计算描述，真实的npu计算需要适配各种功能，实现会非常复杂

计算步骤描述

依照之前的描述我们已经获得一个input image的队列，一个input weight的队列，只需要"依次 "将image和weight放入计算资源做乘加即可以得到卷积计算结果
这里需要仔细理解，虽然目前有了weight和image队列，但是这两个队列对于计算资源并不是一一对应的 ，

由于我们有16\*3\*3的硬件资源，1次计算既可以完成一个kernel_size weight的output通道乘加（1个output通道由16个输入通道组成），需要8次计算既可以完成一个kernel_size的所有的输入输出通道的乘加
所以第一次计算我们会拿image的第一个 16\*3\*3 和 weight的第一个输出通道（16\*3\*3）计算，第二次计算 会切换image到第二个16\*3*\3即stride在width维度偏移1次，但是weight是不做切换 的，（因为在一个width\*high维度上 weight是固定的），这样在计算完第一行的image后，理论上会换high维度继续做width\*high，但是这样在做完所有的image后需要重新加载weigh和image计算其他输出通道，会有很多的重复加载(缓存资源有限)，所以这里的解决方案是在前三行width维度完成计算后，会切回到起始点 然后切换weight做乘加，直到8个输出通道的weight都完成计算，才会切换high维度

计算详解

计算步骤	切换维度	image	weight	说明
1	width	width0_high0 3x3	output channel 1	第一个3x3
2	width	width1_high0 3x3	output channel 1	w维度切换stride
3	width	width2_high0 3x3	output channel 1	w维度切换stride
4	width	width3_high0 3x3	output channel 1	w维度切换stride
5	width	width4_high0 3x3	output channel 1	w维度切换stride
6	width	width5_high0 3x3	output channel 1	w维度切换stride
7	width	width6_high0 3x3	output channel 1	w维度切换stride
8	width	width7_high0 3x3	output channel 1	w维度切换stride
9	width->width	width0_high0 3x3	output channel 2	返回第一个3x3，切换weight
10	width	width1_high0 3x3	output channel 2	w维度切换stride
11	width	width2_high0 3x3	output channel 2	w维度切换stride
12	width	width3_high0 3x3	output channel 2	w维度切换stride
13	width	width4_high0 3x3	output channel 2	w维度切换stride
14	width	width5_high0 3x3	output channel 2	w维度切换stride
15	width	width6_high0 3x3	output channel 2	w维度切换stride
16	width	width7_high0 3x3	output channel 2	w维度切换stride
17	width->width	width0_high0 3x3	output channel 3	返回第一个3x3，切换weight
18	width	width01_high0 3x3	output channel 3	w维度切换stride
...	...	...	...	...
64	width	width7_high0 3x3	output channel 8	完成所有维度的weight和前三行image的乘加
65	width->high	width0_high1 3x3	output channel 1	h维度切换stride,第2,3,4行的第一个3x3
66	width	width1_high1 3x3	output channel 1	w维度切换stride
67	width	width2_high1 3x3	output channel 1	w维度切换stride
68	width	width3_high1 3x3	output channel 1	w维度切换stride
...	...	...	...	重复上述步骤直到完成所有的Image

通过上述计算既可以完成一个10*10*16通道input, 输出为10*10*8通道的卷积运算