Compute Express Link (CXL): An Open Interconnect for Cloud Infrastructure——论文阅读

DAC 2023 Paper CXL论文阅读笔记整理

背景

Compute Express Link是一种开放的行业标准互连,在PCI Express(PCIe)之上提供缓存和内存语义,具有资源池和织物功能。本文探讨了CXL在解决云基础设施中的一些挑战方面的作用。

CXL主要解决云环境下的三个挑战:

  • 缓存一致性。PCIe上的内存访问是不一致的,整个数据结构需要在设备和系统内存之间来回传输以进行处理。CXL通过添加一致性和内存语义来解决这一问题。

  • 内存带宽不足。即使我们增加了每个套接字的DDR通道数量,每个内核的内存带宽也在减少。CXL基于PCIe的SERDES的引脚,为每个引脚提供了更多带宽(例如,64.0 GT/s的x16 PCIe Gen6提供了256 GB/s的双向原始带宽,具有64个信号引脚,而300引脚DDR-5 6400提供了约50 GB/s的双向带宽)。CXL还有助于实现内存分层,实现了昂贵和廉价内存的混合,因为它支持对分层和异构内存的一致访问。

  • 资源滞留或未充分利用。例如存储器、加速器或使用诸如PCIe、相干链路、DDR总线之类的紧密耦合负载存储互连,连接到CPU的任何I/O设备之类的资源属于该节点或相干域。没有任何机制使用紧密耦合的负载存储访问来汇集这些资源,以满足云基础设施中需求的弹性。CXL通过使负载存储语义能够跨多个节点扩展,同时在CXL 2.0和CXL 3.0中提供服务质量和隔离保证,解决了这个问题。

CXL 1.0:在单个节点上直接连接主机处理器和CXL设备

CXL支持PCIe PHY上I/O(CXL.io,基于PCIe)、缓存(CXL.cache)和内存(CXL.mem)语义的动态复用,数据速率为32.0 GT/s,使用称为Flits[1,2,8,9]的68字节单元。CXL本机支持x16、x8和x4链路宽度,在降级模式下支持x2和x1宽度。除了目标的32.0 GT/s数据速率外,CXL 1.0在降级模式下还支持16.0 GT/s和8.0 GT/s的数据速率。

CXL.io协议基于PCIe,用于各种发现和报告功能,以及使用非一致加载存储语义的直接存储器访问(DMA),以强制执行生产者-消费者订购模型[7,8,9]。

CXL.cache使设备能够缓存主机内存中的数据,采用了一个简单的请求和响应协议。

CXL.mem允许主机处理器访问连接到CXL设备的内存。

低延迟是CXL的一个关键特性,因此在PHY级别复用这些协议。CXL Flits(68B)针对64B的高速缓存线传输大小进行了优化,其中2B用于循环冗余校验(CRC),2B用于PHY层成帧。CXL协议是不对称的,以最大限度地减少设备上的一致性开销。

CXL采用MESI(Modified,Exclusive,Shared,Invalid)一致性协议[2],具有大约十几个缓存行请求命令,包括窥探和写回以及相关响应。

CXL 2.0:跨节点切换和资源池

引入了四个主要领域:跨多个域(节点)的设备池、扇出交换机、对持久内存的支持、安全性。

CXL 2.0支持在连接到多个主机(根端口)的CXL交换机的帮助下(或不支持)对多个逻辑设备(MLD)和单个逻辑设备(SLD)进行池化。

CXL 2.0定义了体系结构流,以确保对内存的持久性[3,4]。支持链路加密,可与设备TLB等现有安全机制无缝配合。

CXL 3.0:支持结构拓扑的可组合系统

提供了扩展的功能,如具有连接结构的内存的结构拓扑、除池外的内存共享、与相关主机的对等内存访问以仅在出现一致性冲突时解决一致性冲突、多级交换机、通过消除树拓扑的约束来提高双段带宽、通过使数据速率加倍同时保持等待时间平坦来使带宽加倍。

CXL 3.0传输速率达到64GT/s,允许x16宽度链路的聚合原始带宽高达256GB/s。利用PCIe 6.0的轻量级前向纠错(FEC)和强CRC的组合,在PAM-4信令上使用256B微片进行无错误传输,以实现64GT/s[6,11]。进一步引入了延迟优化的微片变体,通过在128B子微片细粒度传输中分解CRC来进一步减少2-5ns的延迟,以减轻物理层中的存储和转发开销[5,12]。

无顺序I/O(UIO)。UIO总是在非0的虚拟信道(例如,VC1)上发送,在VC中的3个流控制类(FC)之间的事务内或事务间的互连中没有排序。UIO内存写入被置于"P"FC类中,UIO内存读取被置于"NP"FC类,UIO完成的三种类型(UIO写入完成、有数据的UIO读取完成、无数据的UIO读取完成)被置于"C"FC类。由于没有排序,事务不需要遵循任何源-目的地对的固定路径,支持多个路径来支持结构拓扑。

反向无效(BI),添加到CXL.Mem协议。Type2/Type-3设备中的主机管理设备内存(HDM,映射到可缓存/回写区域的设备内存)可以由其他设备使用对等(p2p)UIO访问直接访问,而无需经过主机。这些访问被称为I/O一致性,因为它们不能使设备缓存HDM存储器,而是使设备每次都能一致地访问位置。在提供p2p访问之前,Type-2/3设备中的存储器控制器检查高速缓存行的目录(或窥探过滤器)状态是否允许事务完成(例如,UIO读取请求处于I或S状态的高速缓存行,或者UIO写入请求是到位于I状态的高速缓冲存储器行)。如果请求可以完成,则设备完成请求并将UIO完成返回给源。如果存在一致性冲突(例如,对处于e状态的高速缓存线的UIO读取),则存储器控制器搁置该请求,并使用BI-Req向主机发出反向无效(BI)请求。主机解决一致性冲突并提供响应(下游的BI-Rsp),之后Type-2/3设备中的存储器控制器完成UIO请求并向源发出UIO完成。通过增强BI的一致性,Type-2设备可以实现HDM地址范围的窥探过滤器,这使其能够比以前更有效地映射和管理更多的内存。窥探过滤器中的任何容量缺失都会导致驱逐先前的条目,并调用BI流为新请求腾出空间。

【就是支持主机以非缓存的方式,访问其他主机管理的设备内存,访问时检查数据状态,等数据一致后返回访问的数据】

支持多级交换机,对内存池提供了增强,可以池化大量的设备,并且可以池化类型3设备的大量主机(最多4095台)。

引入节点间一致共享内存。使用硬件一致性在主机之间一致共享CXL连接的内存的能力,允许多个主机同时访问给定的内存区域,并且仍然保证每个主机都能在该位置看到最新的数据,而不需要软件管理的协调,使用BI流来协调主机之间的缓存一致性。

CXL 3.0支持织物功能,消除了传统树状拓扑的限制,支持多个路径的CXL结构的非树拓扑。CXL结构最多可支持4095个节点,节点使用基于端口的路由(PBR)的可扩展寻址机制进行通信[5,6]。这里,节点可以是CPU主机、带或不带内存的CXL加速器、PCIe设备或全局结构连接内存(GFAM)设备。GFAM设备类似于传统的CXL Type-3设备,不同之处在于它可以由多个节点(最多4095个)使用基于端口的路由以灵活的方式访问。

总结

对CXL技术的介绍,CXL用于解决三个挑战:缓存一致性、内存带宽不足、资源滞留或未充分利用。介绍三代CXL规范的主要创新点:(1)CXL 1.0支持单个节点上直接连接主机处理器和CXL设备,提出三种CXL协议和三种CXL设备;(2)CXL 2.0支持跨节点切换和资源池,利用交换机,支持跨多个域(节点)的设备池、扇出交换机、对持久内存的支持、安全性。(3)CXL 3.0支持织物拓扑的可组合系统,加快传输速率和带宽,提出无序I/O(UIO)支持织物拓扑,提出反向无效(BI)支持主机以非缓存的方式访问其他主机管理的设备内存,支持多级交换机,引入节点间一致共享内存。

相关推荐
好悬给我拽开线1 天前
【论文阅读】3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
论文阅读
酒饮微醉-1 天前
论文阅读--Planning-oriented Autonomous Driving(一)
论文阅读·笔记·学习·自动驾驶
逐梦苍穹1 天前
速通LLaMA2:《Llama 2: Open Foundation and Fine-Tuned Chat Models》全文解读
论文阅读·人工智能·语言模型·llama·论文笔记·llama2
李加号pluuuus1 天前
【论文阅读】Face2Diffusion for Fast and Editable Face Personalization
论文阅读
万里鹏程转瞬至2 天前
论文阅读: SigLit | SigLip |Sigmoid Loss for Language Image Pre-Training
论文阅读
橙子yc2 天前
clip论文阅读(Learning Transferable Visual Models From Natural Language Supervision)
论文阅读
图学习的小张2 天前
论文笔记:交替单模态适应的多模态表征学习
论文阅读·学习
无脑敲代码,bug漫天飞2 天前
论文阅读 - SELF-REFINE: Iterative Refinement with Self-Feedback
论文阅读
好悬给我拽开线3 天前
【论文阅读】PERCEIVER-ACTOR: A Multi-Task Transformer for Robotic Manipulation
论文阅读·深度学习·transformer