思腾云计算 - 技术栈

全新一代的 Atlas 是支持 ARM 架构和 X86 架构的，像 Intel，AMD，海光，鲲鹏，飞腾的 CPU 都支持。

Atlas 300I Pro，是基于昇腾 310 芯片开发推理卡，最高功耗72W，被动散热，半高半长单宽，达芬奇架构，作为推理卡需求比较简单，算力和显存平衡就可，所以它支持FP16*70TFLOPS 和 INT8* 140TOPS；搭载 24G 内存，且支持 ECC，另外 Atlas 300I Pro，AI 核心内集成硬件编解码功能，支持 128 路高清视频解码。

另外 Atlas 家族使用的是 CANN 异构计算架构，那什么是 CANN 呢？有什么竞争力呢？今天我们就来给大家好好的介绍一下。

作为专门面向 AI场景的异构计算架构，CANN（Compute Architecture for Neural Networks）也叫神经网络计算架构，以释放昇腾 AI 处理器极致算力为目标，通过软硬件协同优化，不仅能高效调度 AI 计算资源，还可加速 DVPP 硬件的图像处理效率，大大降低对 CPU 的使用。

在这 AI 的时代，数据几何式增长，高性能计算硬件呼之欲出，要服务各种场景下的计算需求，就得在高性能计算硬件和 AI 应用之间架起一座桥梁，CANN 异步计算架构就是这座桥梁。一端是 AI 应用和框架，另一端是 Ascend 系列芯片，CANN 从 2018 年初露锋芒到 2022 年发布的 CANN 6.0 最新版本，在使能 AI 开发效率和性能方面持续保持业界领先，CANN 5.0 比 CANN3.0 性能翻倍，CANN 6.0 版本在性能、开放性及易用性上持续提升，在开源算法支持、自定义算子开发、动态 shape 场景支持等方面全方位满足 AI 开发者的诉求，不断提升生态满足度; 在新版本中，有 400+ 算子支持动态 shape，支持 80% 的主流算子，极大提高了 AI 场景生态满足度，以匹配客户更多的 AI 业务场景，在算子开发方面推出原生支持 C/C++ 的算子开发语言，降低算子开发门槛，同时提供昇腾硬件亲和的数据结构，在保持性能的基础上提升用户自定义算子开发效率，使得算子开发效率得到倍级提升。

CANN 6.0 版本将会提供包括 11 大类在内的 70 个 DSL 算子编程接口、新增 11 类算子调度策略，从而使更多算子采用简单的 DSL 方式开发，算子库中 DSL 算子覆盖度可达 80%。CANN 同时支持算子 Debug 调试、一键生成工程代码、自动编译部署到算子库、简化算子交付件等功能，基于全流程解决开发者痛点，最大程度降低算子开发门槛。持续提升模型开发效率，实现模型下载即用 CANN 支持模型的自动化迁移、调测及智能调优，从真正意义上实现模型下载即用。在 CANN 6.0 版本下，主流框架 TensorFlow 和 PyTorch 的模型迁移成功率可达 80% 以上，兼容主流三方库 Horovod/Keras/DeepSpeed 等。在此基础上还能方便地将那些随算法演进而开发的自定义 kernal 或 function 保留到框架侧执行，提升算法适配灵活度。在模型调优方面，开发者不仅能借助一系列昇腾亲和 API 提升性能，还能通过智能化调优工具代替复杂的手工优化操作，CANN 6.0 版本的平均调优效率较上一代提升一倍以上。

所以一个优秀的国产运算卡，具有较高的硬件运算性能只是成功了一半，强大的软件支撑才是竞争力的核心，那具备这么优秀的软硬件性能，这张卡主要应用在哪些领域呢？

首先 CANN 超强的图像并发处理能力和丰富多样的图像处理接口，为城市智慧交通提供了有力的技术支持，让出行管理更高效，通行更通畅，其次随着 CANN 对动态 shape 的支持度不断提升还可以应用于 ORC 识别，语音识别，身份证识别，人脸识别，车辆/车牌识别等的智慧金融，智慧园区，智慧生产等领域；除了以上领域，媒体视频领域也正逐步借力 CANN 图像并发处理能力，为用户带来全新的视觉体验，给人们的生活增色添彩。

视频类业务发展至今，已不仅仅是单纯视频内容的播放呈现，以自由视角为代表的，极具张力的视觉体验吸引了越来越多的受众。所谓自由视角，就是通过现场环绕部署的多台摄像机，让观众多角度、多细节、立体化地欣赏到精彩的表演效果或比赛瞬间。借助 CANN 超强图像并发处理技术，将现场从不同角度采集的多路视频进行并发解码处理，经过AI智能合成后，编码成视频流实时传送给观众，带来沉浸式的视觉体验，再者我们在看视频或直播的时候，往往会根据当前网络状况选择不同的清晰度，这对应在服务端其实就是视频转码的过程，将原始视频解码过后，根据用户选择的不同清晰度进行编码。在整个过程中，视频编解码性能的好坏考验着用户的耐心，CANN 提供的超强图像并发处理技术，在视频解码的同时可轻松完成多路视频编码，大大降低转码时间，实时满足用户观看需求。

接着介绍 Atlas 300V Pro，V 就是 video 的缩写，是一张视频解析卡，它与 300I pro 显著的区别就是显存容量大，为48GB，大的显存可以在一定范围内提高系统的运行速度，能够处理的分辨率也越高，所以显存容量大了，其分辨率也越好，能够处理视频的路数也越多，Atlas 300V Pro 就是专门为大容量、多路数视频解析场景而生的，这种场景在安防领域十分常见。

Atlas 300T pro 是基于昇腾 910 AI 处理器开发的训练卡，其最大功耗为 300W，PCIE4.0*16 接口，全高全长双宽，需外接电源，内置 30 个 AI core，其算力与国际顶尖 AI 芯片持平；单卡可提供超领先的 FP16 280 TFLOPS 算力，能够加快深度学习训练进程，搭载 1 个 100GE QSFP-DD 网络接口，通常在训练时常用的神经网络训练大都使用随机梯度下降算法，显存中除了加载模型参数，还需要保存中间状态，主要是梯度信息，相比推理，显存需求要增加几倍，显存要够大才能跑起来；要训练好的模型，需要使用大量数据读入显存，显存带宽也要够大，所以总结起来就是训练卡要求显存大，高带宽，而此卡显存容量为：16GB DDR4 + 32GB HBM 支持 ECC，大家都知道 HBM 有比 DDR4 或 GDDR5 更低的功耗，更高带宽。此外训练时需要 support 更多功能异构计算架构 CANN 的软硬件协同优化充分释放硬件算力，为高效训练奠定了坚实的基础。