神经网络硬件加速器-DPU分析

一 DPU概述

DPU是专为卷积神经网络优化的可编程引擎,其使用专用指令集,支持诸多卷积神经网络的有效实现。

1、关键模块

  • 卷积引擎:常规CONV等
  • ALU:DepthwiseConv
  • Scheduler:指令调度分发
  • Buffer Group:片上数据缓存
  • Data Mover:高速数据通道

2、特性

3、工作流程

  • 阶段一:上电后,DPU将指令从外部DRAM加载到片上,译码并分发至各个模块;并根据指令通过DMA将相应权重和输入特征图加载至片上缓存
  • 阶段二:计算引擎根据调度算法将所需数据加载至计算阵列中,通过并行计算引擎完成计算任务
  • 阶段三: 一旦完成当。前层计算任务,则需要将输出特征图通过DMA写回片外DRAM,然后开启下一层计算任务。进而实现整个网络的逐层加速计算

二 设计分析

DPU通过组合多种并行度来搭配多种卷积架构,DPU卷积架构包括三个维度的并行度:像素并行度/输入通道并行度/输出通道并行度(通常输入通道并行度=输出通道并行度)。

1、并行度

  • 像素并行度:PP
  • 输入通道并行度:ICP
  • 输出通道并行度:OCP

2**、计算模式**

数据排布格式猜测大致为:NHWC

计算模式:

  • 1 优先复用输入通道:计算卷积时每次将部分输入特征图从外部缓存读到FPGA片上缓存,卷积计算时优先复用输入特征图,计算尽可能多的输出通道结果,避免计算不同输出通道时多次加载这部分特征图。
  • 2 然后复用输出通道:基于1,每次计算尽可能多的计算输出通道,因片上缓存资源受限,通常无法一次计算玩所有输出通道,这里需要配合调度优先计算剩余的输出通道。
  • 3 采用输出复用方法:输出数据复用对输出缓存具有最少的访问次数,计算过程中,将累加的中间结果保存在片上,直到全部结果累加结束再存回片外。

3**、架构设计**

DPU计算架构设计如下图红色方框部分

CONV计算阵列:计算阵列包括P个PE,每个PE用于完成1个输出像素计算,P个PE完成P个并行像素的卷积计算;每个PE包含OCP个计算阵列,每个计算阵列包含ICP个MACs,分别完成输出通道并行/输出通道并行的卷积计算。

单个计算阵列中包含多个乘法器单元,加法树,非线性计算采用流水线方式设计,通过复制OCP个并行流水线,完成OCP并行度的输出通道卷积运算。也包含任意尺寸的池化、逐元素、尺寸变换、全连接等

Memory POOL:缓存池根据相关专利,为统一缓存池,与传统的输入缓冲区-计算核阵列-输出缓存区结构不同,其采用统一的缓存池,多通道数据读写调度单元设计。DPU根据不同网络不同层的特点,动态申请、分配来使用相应的缓存空间,最大化利用片上缓存资源。

卷积计算单元和ALU可以脱离顺序执行的流水线限制而彼此独立,同时可以保证各计算单元的数据吞吐率,有效提升计算模块的灵活性和并行度。

4**、指令集**

DPU采用多指令多数据流架构,包含指令类型如下:

  • LOAD:数据加载
  • SAVE:数据缓存
  • CONV:卷积计算,包括常规卷积/转置卷积等
  • MISC:逐通道卷积等

具有以下特点:

  • 不同类别指令并行执行
  • 相同类别指令串行执行
  • 不同类别指令间存在相互依赖
  • 依赖关系不应存在死锁

指令优化:

  • 将访存和计算并行,提高计算单元利用率
  • 通过调整tile策略和大小,优化系统访存

指令字段包括:操作码(区分不同指令类型)、依赖码(不同类型指令集安存在并行可能性)、指令参数(具体指令功能描述)

待补充。。。

三 参考文献

1\] 深鉴相关专利 \[2\] 清华大学NICS-EFC组相关paper \[3\]XILINX DPU相关datasheet

相关推荐
翔云1234562 分钟前
vLLM 全部8种部署方式(按从简单到企业级排序,附适用场景+最简命令)
人工智能·ai·大模型
ShareCreators3 分钟前
AI悖论——热情高涨,价值难彰
人工智能·汽车·blueberry
AI医影跨模态组学4 分钟前
如何将多模态MRI影像特征与脑膜瘤细胞增殖标志物Ki-67建立关联,并进一步解释其与肿瘤生长速率、无进展生存期的机制联系
人工智能·论文·医学·医学影像·影像组学
tiger从容淡定是人生4 分钟前
AI替代软件战略(一):从 CCleaner 到 MCP 架构重构 —— TigerCleaner 的工程实践
人工智能·重构·架构·c#·mcp
做cv的小昊6 分钟前
【TJU】研究生应用统计学课程笔记(6)——第二章 参数估计(2.4 区间估计)
人工智能·笔记·线性代数·算法·机器学习·数学建模·概率论
Carl_奕然7 分钟前
【智能体】Agent的四种设计模式之:ReAct
人工智能·设计模式·语言模型
小白64028 分钟前
AI辅助设计Flutter蓝牙自动连接系统
人工智能·flutter
DeepReinforce10 分钟前
二、AI量化投资:沪市主板A股所有股票20250430到20260430双均线(MA5/MA20)回测结果
人工智能·量化
2zcode14 分钟前
基于深度学习的口腔疾病图像识别系统(UI界面+改进算法+数据集+训练代码)
人工智能·深度学习·算法