【ARM CoreLink 系列 1 -- SoC 片上互联介绍】

文章目录

- 概述
- [1.1 片上互连架构的发展](#1.1 片上互连架构的发展)
- - [1.1.1 BUS 共享总线结构](#1.1.1 BUS 共享总线结构)
  - [1.1.2 Crossbar 结构](#1.1.2 Crossbar 结构)
  - [1.1.3 Ring 结构](#1.1.3 Ring 结构)
  - [1.1.4 Mesh 网格结构](#1.1.4 Mesh 网格结构)
- [1.2 ARM 总线互联特点小结](#1.2 ARM 总线互联特点小结)
- - [1.2.1 NOC 总线互联的特点](#1.2.1 NOC 总线互联的特点)

下篇文章：【ARM CoreLink 系列 1.1 -- CoreLink 系列产品介绍】

概述

在摩尔定律的推动下，集成电路工艺取得了高速发展，单位面积上的晶体管数量不断增加。片上系统（System-on-Chip，SoC）具有集成度高、功耗低、成本低等优势，已经成为大规模集成电路系统设计的主流方向，解决了通信、图像、计算、消费电子等领域的众多挑战性的难题。随着片上系统SoC的应用需求越来越丰富，SoC需要集成越来越多的不同应用的IP（Intellectual Property）。另外，片上多核系统MPSoC（MultiProcessor-System-on-Chip）也已经成为必然的发展趋势。

随着SoC的高度集成以及MPSoC的高速发展，对片上通信提出了更高的要求。片上网络技术（Network-on-Chip，NoC）在这个时候也得到了极大的应用，它本质上就是提供一种解决芯片内不同IP或者不同核心之间数据传输的片上通信方案。

1.1 片上互连架构的发展

片上互联架构的发展主要经历了三个阶段：共享总线 （Bus）、Crossbar 以及片上网络（NoC）。

1.1.1 BUS 共享总线结构

传统的SoC片上通信结构一般采用共享总线的方式。在共享总线结构中，所有的处理器和 IP 模块共享一条或多条总线。当有多个处理器同时访问一条总线时候需要有仲裁机制来决定总线的所有权。共享总线片上通信系统结构一般比较简单，且硬件代价也小。但是带宽有限，而且带宽也没法随着IP的增多而进行扩展 。1996年，ARM公司提出的AMBA总线广泛应用于嵌入式微处理器的片上总线，现在已经成为事实上的工业标准。

图 1-1 典型的AMBA总线系统

1.1.2 Crossbar 结构

对于传统的共享总线，当多个处理器同时去访问不同的 IP 的时候，因为需要仲裁机制去决定总线的所有权，所以传统的总线方式在这种情况下就会造成一定的瓶颈，最大的问题就是访问的延时 。在这种情况下，为了满足多处理同时访问的需求和提高整个系统的带宽，一种新的解决方案Crossbar 孕育而生，如图 1-2 就是一个典型的 Crossbar 结构。

图 1-2 典型的单向8x8 Crossbar

Crossbar 结构 可以同时实现多个主从设备的数据传输，也能实现一个主设备对多个从设备进行数据广播，如图1-3 所示。

图 1-3 Crossbar

Crossbar 主要面向对超高带宽要求的系统，或者是主设备有经常向多个从设备发送广播数据需求的系统。如果互连组件太多，这种结构的内部走线会非常多，不利于物理实现，对数字后端设计带来很大挑战。比较常见的 Crossbar 类型 IP 如 ARM 公司的 NIC-400。

1.1.3 Ring 结构

环型（Ring）结构，将网络中的节点首尾相连，形成一个环状，各个模块之间交互方便，不需要主控中转，功能单元通过网络接口将信息送上环，消息在环上逐个节点进行传递，每次只能前进一个节点，消息到达与目的功能单元连接的节点后被送下环，转到网络接口，进而传递给目的功能单元。

环型互联进一步划分为单环和双环，单环只有一个方向（顺时针或逆时针），如图1-4所示，即使是相邻节点，也可能需要经过所有节点才能到达；

图 1-4 Single Ring

而双环有两个方向（顺时针和逆时针），如图1-5 所示:

图 1-5 Dul Ring

消息可以根据源和目的的距离自动选择最近的方向，这样的设计可以保证任意两个节点之间的距离不超过总数的一半。因此，有效降低延迟（相邻节点之间延迟不超过60ns），并极大提高性能（最高吞吐量可达数百G），同时方便扩展（只需在环上增加一个节点即可）。但随着内核数量的增加，环会越来越长，从而导致延迟越来越大，当内核数多于12个以后，整体性能下降明显。比较常见的ring 类型 IP 如ARM公司的CCN。

1.1.4 Mesh 网格结构

二维网格（mesh），这种拓扑结构可以提供更大的带宽，而且是可以模块化，通过增加网格的行或列来增加更多的节点，ARM的CMN-600就是基于mesh的互连IP。

图 1-5 Mesh

每个节点只与其同行和同列的相邻节点连接。如上图1-6所示，共有16个节点，每个节点连接一个网络接口，16个节点排列成4x4的网格。网格属于多维拓扑，至少是2维，并可以逐步扩展到3维或更高维。

如图1-7所示，IP Core为NoC互连的组件，NI为接入NoC的接口，R为NoC中的路由器，物理链接（Physical link）为路由器之间的连接总线。

图 1-7 典型的2D mesh的4X4 NOC网络拓扑结构图

NoC的优势主要体现在如下两个方面。

高可扩展性。NoC类似计算机网络的结构，当互连的组件增加时，NoC的互连复杂度并不会增加很多。而传统的简单总线和交叉开关随着互连模块的增多，其互连复杂度呈指数级增加；
分层设计。NoC的物理层、传输层和接口是分开的，用户可以在传输层方便地自定义传输规则，而无须修改模块接口，传输层的更改对物理层互连的影响也不大，因此不会对NoC的时钟频率造成显著影响。

AMBA 5 CHI协议可提供网络和数据中心等基础设施应用所需的性能和规模。AMBA 5 CHI协议可在单个片上系统扩展32个或更多处理器。

还有一种环面（Torus）拓扑，与网格类似，区别在于提供了同行和同列的最远端的两个节点的连线，即每行和每列都是一个环。

1.2 ARM 总线互联特点小结

在以 ARM 为主的 SoC系统，接口层和协议层采用AMBA协议标准、通信层可采用多种拓扑结构，如总线型、Ring型、Crossbar型和Mesh型等。

面向单核系统：

APB协议，采用总线结构，用于低速外设连接；
AHB/AHB-Lite/AXI协议，采用总线结构，用于高速外设连接。

面向多核系统：

NIC 技术，采用 Crossbar 结构(扩展性较强，latency比较小，因为是点到点，对memory controller对带宽分配不够灵活)，没有固定拓扑，不支持一致性，适用于简单场景；
NoC 技术，采用 Mesh 结构，没有固定拓扑，采用小路由器作为节点，连线更少频率更高，支持一致性，可以连接大量设备；
CCI 技术，采用 Crossbar 结构，固定拓扑，支持一致性，适用于少量处理器；
CCN 技术，采用 Ring 结构，通过固定交叉点连成一个环，延迟大但频率高，支持一致性，适用于16核以上处理器；
CMN 技术，采用 Mesh 结构，通过固定交叉点形成 NxN 网络，支持一致性，适用于更多处理器核。

1.2.1 NOC 总线互联的特点

无论所连接的外设是 AXI 的 CPU 或者其他CHI系列的设备，比如 DDR，或者更高协议的外设，NOC 都能够转化为内部的 packet，这些 packet 按照一定的格式在它到的拓扑结构里进行传输，也就是把标准的协议转化为内部的 package。Package 传输就会有一些特点，即使系统变的很复杂，它里面的绕线也比较少。
NOC 总线在设计的时候就是为了解决高速信号的传输，因此很多NOC 总线都考虑到 physical awareness 的特性，也就是用工具生成NOC总线的时候，它能根据 Feature上的定义及需求去做虚拟的 PR；
NOC 总线对后端实现比较友好，比如支持多个 Clock domain，power domain，这些特性都是 cross bar 总线可能不具备的。所以NOC 总线可以跑在更高的频点上；
NOC 内部 QoS 机制非常好，对带宽的分配，对不同应用场景的满足，相对于Crossbar 来讲更容易实现。

下篇文章：【ARM CoreLink 系列 1.1 -- CoreLink 系列产品介绍】