内存计算研究进展-针对机器学习的近数据计算架构

针对机器学习的近数据计算架构代表性工作有: Georgia Institute of Technology的BSSync (bounded staled sync) 和 Neurocube,Advanced Micro Devices 的 CoML,具体如下。

1 BSSync

BSSync指出,在并行实现的机器学习应用中,原子操作用来保障无锁状态下算法的收敛,但带来很大的同步开销,且同步产生的通信延迟不与占比大的计算延迟重叠。BSSync发现,在机器学习应用迭代收敛过程中,可以用未更新的中间数据进行计算,从而提出利用基于近数据计算的有边界一致性模型减少原子操作带来的延迟开销。图17是 BSSync系统结构,CPU 核里面增加了原子请求队列、控制寄存器以及区域表来实现边界一致性模型.实验显示,BSSync比机器学习应用在传统冯.诺依曼系统中的异步并行的实现快1.33倍。

2 Neurocube

Neurocube是一个针对神经网络计算设计的可编程、可扩展,且节能的近数据计算系统架构。图18 是 Neurocube架构,左边是普遍使用的NDC cube结构,右边是逻辑层设计。逻辑层采用了细粒度可编程的设计模型,以灵活支持祌经网络计算.其中,每 个 P E 有 多 个 M AC单元支持神经网络中最常用的乘加操作,同时还有存储权值的寄存器和缓存以及相应的计数器。

图19 是 Neurocube的执行流程.它首先将神经网络存储到NDC cube的存储单元中,包括每层数据、神经元状态、连接权值.当一个层处理好之后,与中央处理器交互一次,然后执行下一层。Neurocube通过对逻辑层硬件、数据映射方式、片上互联,以及编程方式的精心设计,使得祌经网络计算在NDC cube中能够高效执行。

实验显示,相比于GPU系统,Neurocube有 4 倍的每瓦计算效率提升,与 ASIC系统相比,灵活性更好、扩展能力更强。

不同于针对机器学习设计的注重优化乘加(MAC) 操作的近数据计算系统,C oM L lM 提出,虽然包含MAC操作的卷积层等计算占整个机器学习过程的比例大,但这些计算是计算密集型的,数据复用性好,计算/字节比率高(即一个字节从内存中读出来之后用来计算的次数多);事实上,机器学习过程中,约32%的时间用于数据密集型计算,这些计算的计算/字节比率低。图 2 0 展示了神经网络中低计算/字节比率的计算部分。CoM L 将这些低计算/字节比率的计算部分放在近数据计算端,把MAC等操作放在主处理器上做。

实验显示,C oM L 在机器学习的数据密集型计算上的加速达到了 2 0 倍,总体有14%的性能提升。

参考文献

毛海宇,舒继武,李飞,等. 内存计算研究进展. 中国科学:信息科学,2021, 51: 173-206, doi: 10.1360/SSI-2020-0037 M ao H Y, Shu J W , Li F , et al. D evelopm ent of processing-in-m em ory (in C hinese). Sci Sin Inform , 2021, 51: 173-206, doi: 10.1360/SSI-2020-0037

相关推荐
Elastic 中国社区官方博客1 小时前
Elasticsearch:使用 Agent Builder 的 A2A 实现 - 开发者的圣诞颂歌
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
chools1 小时前
【AI超级智能体】快速搞懂工具调用Tool Calling 和 MCP协议
java·人工智能·学习·ai
懂懂tty1 小时前
CRA 迁移 Rspack(实战)
前端·架构
郝学胜-神的一滴1 小时前
深度学习必学:PyTorch 神经网络参数初始化全攻略(原理 + 代码 + 选择指南)
人工智能·pytorch·python·深度学习·神经网络·机器学习
leobertlan1 小时前
好玩系列:用20元实现快乐保存器
android·人工智能·算法
笨笨饿1 小时前
#58_万能函数的构造方法:ReLU函数
数据结构·人工智能·stm32·单片机·硬件工程·学习方法
jr-create(•̀⌄•́)1 小时前
从零开始:手动实现神经网络识别手写数字(完整代码讲解)
人工智能·深度学习·神经网络
冬奇Lab2 小时前
一天一个开源项目(第78篇):MiroFish - 用群体智能引擎预测未来
人工智能·开源·资讯
冬奇Lab2 小时前
你的 Skill 真的好用吗?来自OpenAI的 Eval 系统化验证 Agent 技能方法论
人工智能·openai
数智工坊2 小时前
Transformer 全套逻辑:公式推导 + 原理解剖 + 逐行精读 - 划时代封神之作!
人工智能·深度学习·transformer