RK3588九鼎创展方案在Arm集群服务器的项目中的应用分析

RK3588九鼎创展核心板,搭载8核瑞芯微3588芯片,具备高性能、低功耗以及强大的多媒体和AI处理能力。在Arm集群服务器项目中,RK3588系列芯片用有明显的性能优势。本文将结合RK3588芯片的性能特征以及九鼎创展的项目经验来分析RK3588在集群服务器项目中的应用,方便行业客户做技术参考。

高性能计算核心

RK3588系列芯片都具备丰富的计算核心,内部包含CPU、GPU、NPU、VPU、MCU等计算核心,可以为各种应用提供足够的性能支撑。RK3588的每一个SOC节点都可以满足服务器的性能需求,而这些高性能节点组成的集群服务器性能更加强大。

高性能CPU和GPU

RK3588搭载了四核Cortex-A76四核Cortex-A55 的八核CPU,主频高达2.4GHz,提供出色的运算性能和多任务处理能力。其集成的ARM G610 MP4 GPU支持多种图形接口,能够满足复杂图形处理和游戏应用的需求。

AI处理能力

RK3588系列芯片内置了6 TOPS 算力的NPU,支持INT4/INT8/INT16/FP16混合运算。NPU采用三核芯架构,可独立运算,也可协同运算,大幅提升A!运算的处理速度,为人工智能应用提供强大的计算基础。此外,如果大算力是核心需求,也可以外挂A!加速芯片,在不影响节点面积的情况下可以实现26TOPS的AI算力拓展。

多媒体处理

RK3588具备超强的多媒体处理能力,自带双8K VPU,支持8K@60fps的视频硬解码和8k@30fps的视频硬编码支持多种视频编解码标准和图像处理算法,如H.264、H.265、VP9等,以及JPEG编解码器。单个RK3388核心可支持32路1080P@30fps的视频硬解码和16路1080P@30fps的视频硬编码,支持同编同解。

高性能MCU处理器

RK3588内含3个Cortex-M0 处理器,对PMU和NPU进行有效控制。

数据带宽

RK3588系列芯片均支持高性能内存,可支持32GB的LPDDR4XILPDDR5运行内存,每一个S0C节点都可以满足服务器的场景需求,为各种应用提供足够的性能支撑。除了内存,每个S0C的对外数据通信速率也有多种选择,目前1Gbps、2.5Gbps、5Gbps是比较常规的方案。当然,如果对单个SoC节点的通讯速率要较高要求,也可以采用10Gbps的技术方案。

丰富的软件生态

RK3588系列芯片具有非常丰富的软件生态,可支持Debian、buildroot、Ubuntu等Linux发行版系统,还支持鸿蒙0S.UOS、麒麟0S等国产操作系统,具有高度的自由度。丰富的操作系统也方便行业客户进行二次开发,打造差异化的产品。目前已经落地过的操作系统有以下几个:

麒麟(Kylin):

桌面版:V10-SP1-2303

国防版:(GFB)V10-U1

服务器版本:V10-SP2-2101/V10-SP3-2303

UOS(统信):

桌面版:20-professional-1060

服务器版本:20-1060a

**欧拉:**openEuler-23.03

**Debian:**Debian11、Debian12

Ubuntu:

桌面版:Ubuntu 20.04LTS、Ubuntu 22.04 LTS

服务器版:Ubuntu 22.04 LTS

安卓: 安卓12、安卓13、安卓14

此外,buildroot和yocto是瑞芯微官方支持的操作系统,如果客户有需求,可以快速完成适配工作。

典型应用场景

Arm集群服务器的应用场景十分多样,除了主流的逻辑运算、存储外,S0C自带的AI核心、视频处理核心等功能IP也极大的拓展了Arm集群服务器的应用场景,下面是几个典型的应用场景。
云手机:

云手机是Arm集群服务器的主流场景之一。Arm处理器本就是面向移动平台,因此可以轻松运行手机、平板等安卓操作系统,作为云端设备提供服务。由于RK3588系列芯片的硬件规格比较特殊,除了运行原生的1对1(即一个SoC核心加载一个操作系统)模式,通过容器技术,还可以运行1对N(一个即一个S0C核心加载多个操作系统)模式。在优化模式下,一个RK3588节点可以运行6个1080P的安卓高性能容器,相当于六台高流畅度得到安卓手机。以一台80节点的2U集群服务器为例,可以提供480个高性能安卓手机环境。当然,对于性能要求不高的场景,可以运行更多的容爱

云手机在云游戏、数据备份、压力测试、账号运营等方面应用十分广泛,ScenSmart可以提供SDK及源码支持,方便用户二次开发,打造适合自己业务场景的产品。
云电脑:

云电脑的应用模式跟云手机类似,不过运行的环境是桌面版操作系统。云电脑主要应用于大型企业的日常办公需求该场景对数据安全有着较高的要求,因此采用云电,脑的技术来管控数据安全。目前国内政策已经释放明显的信号,关键单位会逐渐清退AMD、Intel以及Windows的产品,因此,国产化设备的需求也迎来了高速增长。在国产化方面ScenSmart已经适配了麒麟0S、UOS这两个主视频分析系统:

用RK3588集群服务器来打造视频分析系统是一个非常好的选择。RK3588系列芯片的一个主要应用场景就是视频编解码设备,RK3588内置两个独立的8KVPU,可支持8K视频或多路等效视频的同编同解,结合A模型,可以对视频进行快速的推理分析。不仅可以解码显示,还可以重新编码,进行存储或者推流。

视频分析系统在智慧安防、智慧交通、智慧校园的应用十分广泛,一台40节点的集群处理器就可以满足1000台以上的FHD摄像机分析需求。
应用服务器:

应用服务器是一个比较基础的场景需求,跟传统X86架构服务器一样,主要用于搭建站点、数据库或一些其他的后端服务。
科学计算:

科学计算的需求正日趋旺盛。与传统的X86架构服务器集群相比,Arm集群处理器有很大的能效优势。一台2U的RK3588集群服务器,可容纳80个以上S0C核心,包含640个CPU核心,320个GPU核心,240个NPU核心,以及高达2560GB的高频运行内存,十分适合应用于中小型的科学计算。

需要注意的是,集群服务器的节点采用交换机通讯,相当于多台主机处于同一个网络下,在进行大规模的协同运算时,需要使用分布式计算技术。

能效优秀,运维成本低

与传统X86架构处理器相比,Arm架构的能效表现十分优秀,这也是Arm集群服务器的核心优势之一。RK3588系列芯片采用8nm制程工艺,CPU采用大小核的八核架构,集成G610 MP4图形处理器,算上NPU等计算核心,单个节点的系统满载功耗在25W左右,远低于X86架构的系统功耗。

服务器是一种7*24h运行的设备,电力消耗是后期运维的主要成本之一,这直接关系到项目的盈利情况。除了电力消耗,后期的产品维护也是需要重点考虑的因素。Arm集群服务器集成度高,机房占用空间小,一个机柜可以放更多设备。除此之外,Arm集群服务器大都采用刀片(模组)结构,方便快速拆卸。并日,SoC核心也可以采用B2B的模块形式,可以快速更换,极大降低了人工成本。流的分支,可以满足各行业的日常应用需求。

产品灵活,可快速实现项目定制

RK3588芯片的ARM集群服务器项目通常是客制化项目,可以根据客户的项目需求进行定制,完成系统的BSP开发,并协助客户完成应用开发。Arm集群服务器是一个比较成熟的技术方案,得益于S0C芯片的高集成度,单个系统的节点尺寸可以控制在50*50m以内,这极大提高了项目的灵活性。目前ScenSmart的Arm集群服务器服务器采用交换机的传输方案,也是非常成熟的技术,有多种方案可选。整个项目的灵活性非常高,可以根据客户需求设计产品结构。软件方面也有丰富的技术储备,无论是操作系统、中间件,还是应用层,都可以根据客户的场景需求落地项目。

芯片选型

RK3588系列拥有多颗芯片可选,主要分为RK3588s和RK3588两个系列,两者功能核心一致,性能一直,前者接口较少,体积更小,面向消费类电子。RK3588主要面向商用场景和宽温场景,其高低温耐性更好。RK3588J是工业级芯片,RK3588M是车规级芯片,可以根据自己场景需求选择合适的芯片来定义产品。在进行芯片选型时要结合系统的工作环境和散热能力充分考虑。

结语

相关推荐
AI_NEW_COME15 分钟前
知识库管理系统可扩展性深度测评
人工智能
Michaelwubo20 分钟前
Docker dockerfile镜像编码 centos7
运维·docker·容器
远游客071326 分钟前
centos stream 8下载安装遇到的坑
linux·服务器·centos
海棠AI实验室37 分钟前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
hunteritself39 分钟前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot
好像是个likun1 小时前
使用docker拉取镜像很慢或者总是超时的问题
运维·docker·容器
IT古董1 小时前
【机器学习】机器学习的基本分类-强化学习-策略梯度(Policy Gradient,PG)
人工智能·机器学习·分类
centurysee1 小时前
【最佳实践】Anthropic:Agentic系统实践案例
人工智能
mahuifa1 小时前
混合开发环境---使用编程AI辅助开发Qt
人工智能·vscode·qt·qtcreator·编程ai
四口鲸鱼爱吃盐1 小时前
Pytorch | 从零构建GoogleNet对CIFAR10进行分类
人工智能·pytorch·分类