昇腾AI异构计算架构CANN——高效使能AI原生创新

异构计算与人工智能的关系是什么?昇腾AI异构计算架构CANN是什么?有哪些主要特点?开发者如何利用CANN的原生能力进行大模型创新,构筑差异化竞争力?带着这些问题,我们来认识昇腾AI异构计算架构------CANN。

1 异构计算与人工智能的关系

近年来,人工智能正在以惊人的速度融入到日常生活的众多方面,能够理解语音的智能助手、能够识别人脸的摄像头,能够检测路况的自动驾驶汽车...无论哪种,要想让机器拥有人类技能,就需要搭建一个像人类大脑一样的"神经网络",我们称作AI算法或模型,并用大量的数据训练,直至它变得足够聪明,并能够基于经验对新的任务做出反馈。这个过程依赖高度复杂的算法和巨大的计算量,以GPT-3为例,其参数量已经达到1750亿、样本大小有45TB之多,单次训练时间要以月为单位,如何提高计算效率是人工智能要解决的核心问题。

在人工智能计算中,涉及较多的矩阵或向量的乘法和加法,CPU这类通用处理器的硬件特性决定了它处理此类计算需求的效率非常低,因此在现实应用中,主要利用擅长大规模并行计算任务的AI加速器完成,譬如NPU(昇腾AI处理器)等专用处理器。由于计算的多样性,在这些加速器内部存在非常多不同架构的计算单元,如scalar/vector/cube,就好比规划厨房空间时,针对不同的厨具设计不同的收纳空间,这样不同形状和大小的盘子、杯子就能放到各自专用的位置,从而最大限度地利用空间。

异构计算是指在同一计算系统集成不同类型或架构的处理单元,以便更有效的执行不同类型的任务。为充分利用这些异构算力,就需要构建一套统一的编译优化和编程接口体系,实现底层多样算力与上层框架/算法的解耦、互通,从而发挥不同处理器的优势,通过协同工作,来提高整个系统的性能、能效和灵活性。

2 昇腾AI异构计算架构CANN是什么

CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构,对上支持PyTorch、TensorFlow以及昇思MindSpore等业界主流AI框架,对下使能昇腾AI处理器,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。同时针对多样化应用场景,提供高效易用的编程接口,支持用户快速构建基于昇腾平台的AI应用和业务。

3 异构计算架构CANN的技术优势

3.1 极致性能

CANN从2018年的第一个版本发展至今,经过多个版本的迭代,无论从计算加速角度,还是编程易用性角度来说,都积累了非常多的技术优势。

如何借助CANN让AI任务在异构硬件上加速计算?

我们知道,AI任务的逻辑核心是AI算法,就是文章开始提到的那个类似人类大脑一样的"神经网络"。这个神经网络是一张巨大的,有成千上万个节点连接而成的庞大计算图,直接递交给异构硬件的话,运行效率可想而知,就需要通过CANN对整个计算图进行编译优化。CANN会把计算图做加工和精简,消融掉若干节点,大图变成若干子图。

CANN根据各异构硬件上擅长处理的计算任务类型,将各计算子图下发到CPU、NPU、甚至是NPU内部更小的异构单元上执行。多任务执行过程时,由于图和图之间的依赖关系,顺序执行必然会因为任务之间的互相等待带来性能损耗,CANN通过类似工厂流水线的方式让计算任务自动并行起来,这样整个工厂的机器就能满负荷运转起来,各异构资源便能"物尽其用"。

了解更详细的CANN计算图优化技术,可参考前期发布的系列技术博客:

  1. GE图引擎:深度解读昇腾CANN计算图优化技术,提升算法计算效率
  2. GE图引擎:深度解读昇腾CANN多流并行技术,提高硬件资源利用率
  3. GE图引擎:深度解读昇腾CANN内存复用技术,降低网络内存占用
  4. GE图引擎:深度解读昇腾CANN模型下沉技术,提升模型调度性能
  5. GE图引擎:深度解读昇腾CANN小shape算子计算优化技术,进一步减少调度开销

除了针对计算图的优化,CANN更是将计算图中的节点(即AI算子)适配昇腾硬件进行了深度优化,并预置到内部的加速库中,组成了能够让AI任务飞速执行的弹药库。这其中不仅有包含常用深度学习算法计算类型的NN(NeuralNetwork)算子库、能够提供高性能媒体数据处理能力的DVPP(Digital Vision Pre-Processing)算子库、分布式训练中提供卡间高效数据传输的HCCL(Huawei Collective Communication Library)算子库,更有覆盖Transformer网络大模型结构泛化的高性能融合算子库。

3.2 极简易用

在编程易用性方面,CANN能够端到端使能从算子到模型算法的开发及部署,帮助开发者快速构建基于昇腾平台的AI应用及业务。

从算法创新角度来说,CANN广泛支持业界主流深度学习框架,包括昇思MindSpore、PyTorch、TensorFlow 、PaddlePaddle、计图Jittor等等,支持从GPU生态低成本迁移至昇腾生态,开发者可以选择继续使用原有框架和算法,仅切换底层硬件即可;可以选择迁移到华为开源的昇思MindSpore框架获得昇腾全栈能力;也完全可以基于CANN进行原生开发,目前Pytorch已支持昇腾设备接入,意味着开发者可直接在昇腾设备上使用PyTorch原生算法开发。

在算法迁移或开发过程中,如果发现某些算子性能达不到预期要求,或者想针对新的业务场景开发新功能,就需要进行算子开发。在这个维度上,CANN提供了面向算子开发场景的昇腾Ascend C编程语言,它原生支持C/C++编程规范,通过多层接口抽象、并行编程范式、孪生调试等技术,极大提高了算子的开发效率,帮助AI开发者低成本完成算子开发和模型调优部署。特别在大模型场景下,利用Ascend C,能将Transformer网络中融合算子的开发周期从2人月缩短到2人周,为大模型开发和创新创造了便利条件。

从AI应用开发角度来说,CANN提供了AscendCL编程接口,它是一套用于开发AI推理应用的C语言API库,兼具运行时资源管理、模型加载与执行、图像预处理等能力,能够让开发者轻松解锁图片分类、目标识别等各类AI应用。AscendCL屏蔽了昇腾硬件差异,开发者只需要掌握一套API便可以全面应用于昇腾全系列硬件,并且在未来CANN版本升级的情况下,依然可以做到后向全面兼容,且运行效率不打折扣!

3.3 架构开放

2021年,CANN开放应用开发、算子开发、图开发接口,并在昇腾社区例行发布社区版本,包含最新版本特性供开发者提前使用。

2023年,CANN开放Runtime运行时,让开发者可以直接调用NPU内部资源,自主构筑极致性能大算子和加速库。

2024年,随着大模型的飞速演进,AI越来越难被普通的开发者和组织驾驭,为更进一步提升AI计算效率,支撑开发者的算法创新诉求,CANN进一步开放,为开发者提供了更加丰富、灵活的原生开发工具,支持开发者原生创新,构筑差异化优势。

借助CANN开放资源,开发者可以更深入地调用运行时能力,释放硬件性能;通过Ascend C接口类库及算子加速库,获得原生开发能力;通过集合通信库,自定义通信策略,获得更高的通信性能;通过GE图引擎接口,自定义图结构,获得最优图性能。

来源:https://www.hiascend.com/software/cann

了解CANN开放能力的更多详情,可参考前期发布的系列技术博客:

  1. Ascend C 2.0全新升级,支撑大模型融合算子高效开发
  2. 一文了解AOL算子加速库
  3. HCCL------昇腾高性能集合通信库
  4. HCCL集合通信算法开发Hello World示例(超详细)

4 开发者计划&生态进展

4.1 开发者计划

在开发者培养方面,CANN针对不同层次开发者,提供了全面的赋能体系,从而支持了个人、高校&科研院所、企业伙伴等百万开发者一起学AI、用AI。

在入门阶段,CANN提供学习文档、认证课程、系列教材供开发者自主学习,开展线上线下CANN训练营活动牵引开发者学习,还联合高校老师开展教学实践赋能学生群体。

https://www.hiascend.com/zh/document

在实践阶段,CANN提供丰富的应用案例供开发者体验、各种类型的众智和竞赛任务给予开发者开展实践,开发者可登陆昇腾社区官网学习体验。

在研究创新阶段,成立昇腾CANN学术基金鼓励创新成果孵化,同时通过技术行等专项支持大力扶持企业伙伴,探讨与解决关键技术问题,使能伙伴商业成功。

此外,在微信公众号(昇腾CANN)、CSDN(昇腾CANN)、知乎(昇腾CANN)、以及B站(昇腾AI开发者UP号)上,还会不定时发布一些科普性的技术博客、热点新闻事件和活动赛事,让开发者了解最新AI技术动向。

4.2 生态进展

在生态发展方面,CANN始终坚持开放、合作、共赢的原则,与百万开发者共建繁荣AI生态。过去的几年中,CANN与超过300家高校研究团队开展合作,保持技术先进性,累计组织过数百场线上线下活动,与300万的昇腾开发者共成长。

CANN积极与三方开源社区开展合作,目前已支持昇思MindSpore、飞桨(PaddlePaddle、Paddle-Lite)、PyTorch、TensorFlow、计图(Jittor)等业界主流深度学习框架、OpenCV DNN、MMDeploy等推理引擎,从而实现不同框架/引擎下的代码在异构硬件上的高效运行。

CANN联合科大讯飞在半年时间内通过孵化大模型融合算子、多维度分布式并行、以及基于CANN联合深度优化,实现了讯飞星火大模型训练和推理计算效率翻番。依托CANN的全栈协同优化,鹏城云脑构建了性能领先的AI训练集群,并已经面向全社会为大模型训练提供算力底座。此外,CANN助力紫东太初构建开放服务平台2.0,使能行业大模型高效开发、加速行业应用落地。

相信随着CANN的开放,会有越来越多的客户、伙伴、开发者基于CANN的原生能力快速创新,孵化出更多的商用成果,为社会创造更大的应用价值。

5 了解CANN最新技术动向

9月19日-21日,第九届华为全联接大会(HUAWEI CONNECT 2024)将在上海盛大开启,届时将迎来CANN 8.0版本的重磅发布,欢迎关注会议信息了解CANN最新技术动向,详情请登陆昇腾社区官网

相关推荐
WeeJot嵌入式20 分钟前
卷积神经网络:深度学习中的图像识别利器
人工智能
脆皮泡泡30 分钟前
Ultiverse 和web3新玩法?AI和GameFi的结合是怎样
人工智能·web3
机器人虎哥33 分钟前
【8210A-TX2】Ubuntu18.04 + ROS_ Melodic + TM-16多线激光 雷达评测
人工智能·机器学习
码银40 分钟前
冲破AI 浪潮冲击下的 迷茫与焦虑
人工智能
用户377913629475543 分钟前
【循环神经网络】只会Python,也能让AI写出周杰伦风格的歌词
人工智能·算法
何大春44 分钟前
【弱监督语义分割】Self-supervised Image-specific Prototype Exploration for WSSS 论文阅读
论文阅读·人工智能·python·深度学习·论文笔记·原型模式
uncle_ll1 小时前
PyTorch图像预处理:计算均值和方差以实现标准化
图像处理·人工智能·pytorch·均值算法·标准化
宋138102797201 小时前
Manus Xsens Metagloves虚拟现实手套
人工智能·机器人·vr·动作捕捉
SEVEN-YEARS1 小时前
深入理解TensorFlow中的形状处理函数
人工智能·python·tensorflow
世优科技虚拟人1 小时前
AI、VR与空间计算:教育和文旅领域的数字转型力量
人工智能·vr·空间计算