npu硬件实现cnn标准卷积计算细节

npu硬件实现cnn标准卷积计算细节

input image 细节

  • 示例输出Image为计算中间过程的输入图像,大小为16x10x10(channel\*width\*high)

  • 示例的卷积核为3x3

  • imageddr移动的计算单元的可视化过程(stride为1)

  1. 第一个3x3

  2. 第二个3x3

  3. 第三个3x3

  4. (直到移动完整个width后,开始从high维度做stride)第1次移动high维度的3x3

  5. 第1次移动high维度的第2个3x3

  • 按照如上规则将整个image排列好准备进入计算单元(这是一个动态的过程,究竟一次能排列多少个3x3看硬件的存储资源能力,不一定一次排列好所有数据)
  • 完整的将image读入排列好准备计算的示例

input weight 细节

  • Weight的大小取决于输入输出
  • 示例weight16\*8\*(3x3)input_channel \* output_channel\*kernel_size)
  • weightddr移动到计算单元相对比较简单,依次取出所有的weight进行计算即可(每次取出多少看硬件的计算资源大小,示例硬件计算资源为16\*3x3,一次可以完成1个所有input通道的3x3卷积计算)

硬件资源介绍

  • 硬件资源为(16\*9)个乘法器 和(14\*9 + 8)个加法器, 意味着一次可以对一个3x3的图形的16个通道完成一次乘加
  • 由加法的交换律可得在channel维度和image维度的加法的前后并不影响计算结果,示例的硬件资源先做channel维度的加法,再做kernel的加法
  • npu的实现根据需求会有各种不同,本文只是做了一个很小的计算描述,真实的npu计算需要适配各种功能,实现会非常复杂

计算步骤描述

  • 依照之前的描述我们已经获得一个input image的队列,一个input weight的队列,只需要"依次 "将imageweight放入计算资源做乘加即可以得到卷积计算结果

  • 这里需要仔细理解,虽然目前有了weightimage队列,但是这两个队列对于计算资源并不是一一对应的

    由于我们有16\*3\*3的硬件资源,1次计算既可以完成一个kernel_size weightoutput通道乘加(1个output通道由16个输入通道组成),需要8次计算既可以完成一个kernel_size的所有的输入输出通道的乘加

  • 所以第一次计算我们会拿image第一个 16\*3\*3weight的第一个输出通道(16\*3\*3)计算,第二次计算 会切换image第二个16\*3*\3stridewidth维度偏移1次,但是weight是不做切换 的,(因为在一个width\*high维度上 weight是固定的),这样在计算完第一行的image后,理论上会换high维度继续做width\*high,但是这样在做完所有的image后需要重新加载weighimage计算其他输出通道,会有很多的重复加载(缓存资源有限),所以这里的解决方案是在前三行width维度完成计算后,会切回到起始点 然后切换weight做乘加,直到8个输出通道的weight都完成计算,才会切换high维度

  • 计算详解

    计算步骤 切换维度 image weight 说明
    1 width width0_high0 3x3 output channel 1 第一个3x3
    2 width width1_high0 3x3 output channel 1 w维度切换stride
    3 width width2_high0 3x3 output channel 1 w维度切换stride
    4 width width3_high0 3x3 output channel 1 w维度切换stride
    5 width width4_high0 3x3 output channel 1 w维度切换stride
    6 width width5_high0 3x3 output channel 1 w维度切换stride
    7 width width6_high0 3x3 output channel 1 w维度切换stride
    8 width width7_high0 3x3 output channel 1 w维度切换stride
    9 width->width width0_high0 3x3 output channel 2 返回第一个3x3,切换weight
    10 width width1_high0 3x3 output channel 2 w维度切换stride
    11 width width2_high0 3x3 output channel 2 w维度切换stride
    12 width width3_high0 3x3 output channel 2 w维度切换stride
    13 width width4_high0 3x3 output channel 2 w维度切换stride
    14 width width5_high0 3x3 output channel 2 w维度切换stride
    15 width width6_high0 3x3 output channel 2 w维度切换stride
    16 width width7_high0 3x3 output channel 2 w维度切换stride
    17 width->width **width0_high0 3x3 ** output channel 3 返回第一个3x3,切换weight
    18 width width01_high0 3x3 output channel 3 w维度切换stride
    ... ... ... ... ...
    64 width width7_high0 3x3 output channel 8 完成所有维度的weight和前三行image的乘加
    65 width->high **width0_high1 3x3 ** output channel 1 h维度切换stride,第2,3,4行的第一个3x3
    66 width width1_high1 3x3 output channel 1 w维度切换stride
    67 width width2_high1 3x3 output channel 1 w维度切换stride
    68 width width3_high1 3x3 output channel 1 w维度切换stride
    ... ... ... ... 重复上述步骤直到完成所有的Image
  • 通过上述计算既可以完成一个10*10*16通道input, 输出为10*10*8通道的卷积运算

相关推荐
用户68563262086919 分钟前
Claude Code 乱猜字段名?我给它写了一个"数据库查询约束 Skill"
人工智能
你_好22 分钟前
# 给你的产品嵌入一个「会操作界面的 AI 助手」
人工智能
ShallWeL22 分钟前
【机器学习】(3)—— 线性回归:梯度下降
人工智能·机器学习
陈广亮22 分钟前
Prompt、Context、Harness、Agentic:LLM 应用四层嵌套结构,搞清自己卡在哪一层
人工智能
刺猬的温驯1 小时前
Flow Matching 训练的输入分布问题:从 VAE Latent 统计性质到归一化工程实践——以 VoxFlash-TTS 为例
人工智能·语音合成·tts
机器之心1 小时前
近80年后,埃尔德什经典「拉姆齐数下界」,被三位中国学者首次指数级改进
人工智能·openai
机器之心1 小时前
Nvidia都在点赞的LoopWM世界模型,竟然来自一家中国初创FaceMind?
人工智能·openai
美团技术团队2 小时前
LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆
人工智能·算法
moMo2 小时前
从“你好”到 1024 维坐标:大模型怎么识字
人工智能
ShallWeL2 小时前
【机器学习】(2)—— 线性回归:损失函数
人工智能·机器学习