HydraRPC: RPC in the CXL Era——论文阅读

ATC 2024 Paper CXL论文阅读笔记整理

问题

远程过程调用（RPC）是分布式系统中的一项基本技术，它允许函数在远程服务器上通过本地调用执行来促进网络通信，隐藏底层通信过程的复杂性简化了客户端/服务器交互 $15$ 。RPC已成为数据中心通信基础设施的重要组成部分，如Protobufs $21$ 、Thrift $40$ 和Finagle $20$ 。性能和可扩展性对于现代RPC实现至关重要。通信和（反）序列化的额外网络延迟和数据复制会阻碍性能，而硬件（网络）和软件（缓冲区管理）级别的拥塞会影响可扩展性。

现有RPC采用如图2所示的消息传递。沉重的网络堆栈给传统的基于TCP/IP的RPC（A）带来了负担，带来很高的CPU开销。利用RDMA来实现RPC可以提高性能，同时保持与现有应用程序的兼容性，现有方法可分为双边（B）和单边（C）方法。HERD $29$ 和FaSST $30$ 是双边操作，但需要额外的数据副本。RFP $41,46$ 提出单边操作，通过引用，服务器向客户端写入引用，客户端使用该引用通过RDMA Read获取，但需要额外的网络往返来发。

CXL（Compute Express Link）是一种行业支持的用于内存和设备缓存一致性互连，提供高速、高效和灵活的互连。这种环境促进了更复杂、更高效的RPC机制的开发，来增加的吞吐量和降低开销。通过内存共享功能，可以让多台机器访问相同的数据 $4$ ，从而取代繁重的网络通信。

挑战

现有基于消息传递的RPC面临三个挑战：

网络开销。如图2所示，每个RPC包含两个消息或RDMA操作，这至少比正常的内存访问贵10倍。即使使用RDMA，最佳的网络往返时间也在2μs左右，而在CXL HDM中，只需要300ns。
数据复制。现代分布式处理系统，如Ray $39$ ，通常按引用传递来避免昂贵的数据复制（图2（A/B/C））。使用分布式存储来存储数据，只通过RPC传输这些数据的引用，从而减少了数据传输开销，提高了效率和性能。
可扩展性。多个RPC连接应建立其缓冲区，缓冲区共享应限制在同一台服务器上。但是，不平衡的RPC连接工作负载会导致高内存占用和较差QoS。从网络的角度来看，大量的RPC连接可能会导致网络拥塞。

传统RPC的实现基于消息传递，但CXL只提供共享内存抽象，通过CXL实现RPC需要考虑三个问题：

如何设计RPC的控制平面和RPC协议，以充分利用CXL HDM（主机管理设备内存）的潜在性能。
CXL HDM提供共享内存接口，没有消息传递接口，没有高效易用的机制来通知CPU请求/响应的到达。
如何在RPC场景中使用CXL HDM时管理它。

本文方法

本文提出了利用CXL HDM（主机管理设备内存）进行数据传输的HydraRPC。

利用在多台机器之间共享的CXL HDM来避免昂贵的网络轮询、内存复制和（反）序列化。多个客户端/服务器通过物理链路或CXL交换机连接到同一CXL HDM。每个RPC连接中，在CXL HDM有两个消息队列和数据区域，消息队列负责将引用作为请求/响应缓冲区传递，数据区存储请求/响应的原始数据。消息队列中的每个条目大小为64位，包括对数据区域的嵌入式引用（偏移）和1位到达标志。为了为请求/响应数据分配内存，采用了用户空间级内存分配器，通过映射设备内存区域来管理CXL HDM。
采用不可缓存的共享来绕过CPU缓存，而不是通用的load/store内存访问指令。
- 利用英特尔的内存类型范围寄存器（MTRR）技术 $31$ ，来控制物理内存区域的访问和缓存，在Intel和AMD CPU中都可用。通过优化CPU缓存特定范围内存地址的方式来提高系统性能，允许直写、写组合或回写缓存。有两个接口可以设置MTRR：一个是ASCII接口，允许在/proc/mtrr中读写。另一个是ioctl（）接口。参数是基本物理地址和存储区域的长度。从ACPI中的SRAT获取CXL HDM的物理内存区域，使用ioctl将该内存区域设置为不可缓存。
- Intel ISA提供了特定的指令，如clflush、clwb或ntstore，用于将数据刷新或直接写入CXL HDM。在HydraRPC中，客户端和服务器端都使用了非临时内存操作，使用clflush/refetch绕过本地缓存。使用内存存储/加载围栏（sfence/lfence），用于同步非临时访问。
- 这两种绕过缓存机制的延迟接近。
为了实现低CPU利用率和提高性能，提出两种方法。
- 基于轮询的优化。利用CXL HDM上的轮询来检测传入的请求/响应 $23,47$ 。CPU读取请求/响应条目的到达标志，并在到达标志有效时启动处理。为了缓解繁忙轮询期间在内存位置上旋转的问题，使用了两个内部函数（monitor和mwait），专门为具有第三代数据流单指令多数据扩展指令集（SSE3）的英特尔处理器设计，还具有用户模式等效项（ummonitor和umwait）。客户端/服务器以循环缓冲区的缓存行粒度发出监视指令，随后执行mwait指令以停止CPU并节约电源。当另一方修改监控数据时，CPU会被唤醒。这种方法有效地减少了CPU占用空间，提高了内存轮询的性能。
- 基于中断。PCIe MSI（消息信号中断）允许PCIe设备通过消息而不是物理中断线路向CPU发送中断信号 $6$ ，通过为每个设备提供多个可扩展的中断向量，提供了更高的性能。CXL的事务层基于PCIe，可以在内核的MSI表中定义一个新的中断类型。当新的内存写入即将到来时，它会启动一个指向主机软件的内存写入事务层包（TLP），此TLP数据包是使用MSI表中相应条目的地址和数据生成的。随后，主机的中断服务例程将TLP识别为中断，并相应地对其进行寻址，RPC处理被唤醒。【目前平台中的无法启用注册以发出MSI信号，没有实现】
支持滑动窗口协议，以防止访问拥塞。

在真实的CXL硬件上对HydraRPC进行了评估，HydraRPC每个RPC连接可以实现620KOPS的吞吐量，比mRPC $17$ 和基于RDMA的RPC高1.6/3.1倍，最低RPC延迟为1.47μs。HydraRPC具有良好的可扩展性，每台服务器可以扩展到96个以上的RPC连接，性能仅下降19%。

实验

实验环境：

硬件架构：基于Intel Agilex I系列FPGA $26$ 和配备Sapphire Rapids CPU的Archer City平台。服务器有96个超线程和64GB DIMM，带有16GB CXL HDM的CXL FPGA插入一个节点的PCIe插槽，并用两根8x MCIO电缆连接到另一个节点。FPGA中的硬CXL IP严格遵守CXL规范要求，并配置为支持内存池和共享。硬件架构存在几个限制：
- 必须对CXL链接访问的内存部分和访问类型（读取或读写）进行对齐。HydraRPC应管理该内存（例如使用memmap内核选项），以防止不受控制的访问。
- 为了确保从devkit内存而不是本地缓存读取数据，需要对地址进行缓存失效。
- 为了确保数据被写入devkit内存，而不仅仅是写入本地缓存，需要在写入后刷新缓存行（例如clflush/refetch）。
软件配置：使用CXL 1.1+驱动程序，支持CXL HDM的服务器内共享。使用daxctl工具在devdax（设备直接访问）模式下初始化CXL HDM，允许load/store指令通过mmap映射dax设备来访问CXL HDM。

实验对比：延迟、吞吐量、CPU利用率

实验参数：请求大小、滑动窗口大小、客户端数量

总结

本文提出基于CXL优化RPC，现有基于消息传递的RPC面临：网络开销高，数据复制开销，可扩展性差。本文提出利用CXL HDM（主机管理设备内存）进行数据传输的HydraRPC。包括4个技术：（1）利用多机间共享的CXL HDM来避免昂贵的网络开销、内存复制和（反）序列化。（2）采用不可缓存的共享来绕过CPU缓存，而不是通用的load/store内存访问指令。（3）基于轮询的优化，使用SSE3的功率降低指令，降低CPU利用率。（4）滑动窗口协议，防止访问拥塞。