cxl

MemVerge25 天前
科技·gpu·cxl·英伟达
MemVerge与美光科技利用CXL®内存提升NVIDIA GPU利用率该联合解决方案将 GPU 利用率提高了 77%,并将 OPT-66B 批量推理的速度提高了一倍以上。2023 年 3 月 18 日,作为大内存软件领域领导者的 MemVerge,与美光科技联手推出了一项突破性解决方案,该方案通过智能分层的 CXL 内存,提升了大型语言模型(LLMs)的性能,通过从 GPU HBM 卸载到 CXL 内存。这一创新合作正在 GTC 展会的美光展位 #1030 展出,与会者可以亲身体验分层内存对 AI 工作负载的变革性影响。
妙BOOK言5 个月前
论文阅读·rpc·cxl
HydraRPC: RPC in the CXL Era——论文阅读ATC 2024 Paper CXL论文阅读笔记整理远程过程调用(RPC)是分布式系统中的一项基本技术,它允许函数在远程服务器上通过本地调用执行来促进网络通信,隐藏底层通信过程的复杂性简化了客户端/服务器交互[15]。RPC已成为数据中心通信基础设施的重要组成部分,如Protobufs[21]、Thrift[40]和Finagle[20]。性能和可扩展性对于现代RPC实现至关重要。通信和(反)序列化的额外网络延迟和数据复制会阻碍性能,而硬件(网络)和软件(缓冲区管理)级别的拥塞会影响可扩展性。
妙BOOK言6 个月前
论文阅读·cxl·rdma·内存分解
Rcmp: Reconstructing RDMA-Based Memory Disaggregation via CXL——论文阅读TACO 2024 Paper CXL论文阅读笔记整理RDMA:RDMA是一系列协议,允许一台机器通过网络直接访问远程机器中的数据。RDMA协议通常固定在RDMA NIC(RNIC)上,具有高带宽(>10 GB/s)和微秒级延迟(~2μs),这些协议得到了InfiniBand、RoCE和OmniPath等公司的广泛支持[20, 47, 62]。RDMA基于两种类型的操作原语提供数据传输服务:单侧动词,包括RDMA READ、WRITE、ATOMIC(例如FAA、CAS);双侧动词,包括RDMA SEND、
妙BOOK言6 个月前
论文阅读·cxl
Exploring Performance and Cost Optimization with ASIC-Based CXL Memory——论文阅读EuroSys 2024 Paper CXL论文阅读笔记整理随着内存密集型应用程序对内存需求的增加,受限于物理限制,如DDR DIMM插槽的可用性和发热问题,以及使用高密度DIMM的成本考虑,现代应用程序的内存需求很容易超过单机的内存容量[2,3]。
妙BOOK言8 个月前
论文阅读·cxl
Streamlining CXL Adoption for Hyperscale Efficiency——论文泛读arXiv Paper CXL论文阅读笔记整理在探索利用CXL的可组合内存系统时,需要克服超大规模下的障碍。超大规模采用基于软件的内存(解)压缩技术,减轻了内存容量、存储和网络限制,但需要更多的计算CPU周期。作为CXL社区的关键指南,制定了开创性的开放计算项目(OCP)超大规模CXL分层内存扩展器规范。如果实施,此规范将降低TCO障碍,从而在超大规模和企业级别实现多样化的CXL部署。
妙BOOK言8 个月前
论文阅读·cxl·图处理
GPU Graph Processing on CXL-Based Microsecond-Latency External Memory——论文泛读SC Workshop 2023 Paper CXL论文阅读笔记整理在GPU图分析中,处理超出GPU板载存储器容量(数十GB)的大型图,使用主机DRAM和固态驱动器(SSD)等外部存储器是一种具有成本效益的方法。特别是,以GPU为中心的外部内存访问方法,已被证明在涉及按需细粒度随机访问(如图分析)的工作负载中产生了最先进的运行时性能[31,33]。也就是说,当接下来要读取的小块数据取决于当前处理结果并且不能先验地确定时,让GPU发起数据请求比让CPU控制GPU和外部存储器之间的数据流更有效。
攻城狮Adam9 个月前
系统架构·cxl
CXL系统架构CXL支持三种设备类型,如下图。Type 1支持CXL.cache和CXL.io;Type 2支持CXL.cache,CXL.mem和CXL.io;Type 3支持CXL.mem和CXL.io。无论哪种类型,CXL.io都是不可缺少的,因为设备的发现,枚举,配置等都是由CXL.io来负责。
攻城狮Adam9 个月前
后端·spring·cxl
CXL事务层(续)CXL.cache协议将设备和主机之间的交互定义为多个请求,每个请求至少有一条相关的响应消息,有时还有数据传输。该接口在每个方向上由三个通道组成:请求(Request)、响应(Response)和数据(Data)。通道按其方向命名,D2H表示设备到主机,H2D表示主机到设备。
妙BOOK言9 个月前
论文阅读·cxl
Compute Express Link (CXL): An Open Interconnect for Cloud Infrastructure——论文阅读DAC 2023 Paper CXL论文阅读笔记整理Compute Express Link是一种开放的行业标准互连,在PCI Express(PCIe)之上提供缓存和内存语义,具有资源池和织物功能。本文探讨了CXL在解决云基础设施中的一些挑战方面的作用。
妙BOOK言9 个月前
论文阅读·cxl
CXL (Compute Express Link) Technology——论文阅读Journal of Computer and Communications 2023 Paper CXL论文阅读笔记整理
妙BOOK言9 个月前
论文阅读·cxl
CXL-Enabled Enhanced Memory Functions——论文阅读IEEE Micro 2023 Paper CXL论文阅读笔记整理计算快速链路(CXL)协议是系统社区的一个重要里程碑。CXL提供了标准化的缓存一致性内存协议,可用于将设备和内存连接到系统,同时保持与主机处理器的内存一致性。CXL使加速器(例如,GPU和DPU)既能直接加载/存储对主机存储器的访问,又能使它们自己的设备上存储器同样可由CPU访问。CXL允许在内存数据平面上插入技术,所以它允许将功能实现到内存子系统中的可能性。
MangoPapa1 年前
cxl
CXL.cachemem 简介(背景&通道)🔥点击查看精选 CXL 系列文章🔥 🔥点击进入【芯片设计验证】社区,查看更多精彩内容🔥📢 声明:
BlackDogv1 年前
pcie·cxl
Compute Express Link Link Layers (CXL2.0 Chapter4 )作为Flex Bus Physical layer和cxl.io transaction layer的中间桥梁。