ZNS SSD是不是持久缓存的理想选择?

随着数据量的增加和技术的进步,对于高效、可靠的存储解决方案的需求日益增长。传统的基于块的SSD虽然具有成本效益和持久性的优点,但在处理写密集型和更新密集型工作负载时存在局限性。

NAND闪存的特点是数据只能按页(例如4KiB)写入,不支持原地更新,必须以块为单位进行擦除。然而,块接口的局限性在于需要通过垃圾收集(GC)来支持4KiB的原地更新,而且无法感知擦除行为,导致不可控的垃圾收集引发不稳定延迟。这些问题在缓存工作负载中尤为突出,因为它们通常是写密集型和更新密集型的,并倾向于高容量利用率。

持久缓存(Persistent Cache)是指一种用于存储频繁访问的数据,并能在系统重启后仍然保留这些数据的缓存机制。持久缓存结合了缓存的快速访问特性和非易失性存储的持久性,使得数据能够在系统断电后仍然得以保存,从而提高了数据的可靠性和系统的整体性能。随着固态存储技术的进步,特别是ZNS SSDs等新型存储技术的发展,持久缓存的应用范围将进一步扩大,为各种高性能计算场景提供支持。

扩展阅读:

Zoned Namespace SSDs(ZNS SSDs)作为一种新兴技术,旨在克服传统SSD在某些场景下的局限性,特别是在持久缓存系统中的应用。ZNS SSDs通过提供一种新接口来克服传统SSD的一些限制,尤其是在某些应用场景下。具体来说,ZNS SSDs能够减少内部垃圾收集过程中的写放大(WA),这有助于延长SSD的寿命并避免因额外的数据移动而导致的吞吐量降低和不稳定延迟。此外,与相同成本的传统SSD相比,ZNS SSDs可以提供更大的存储容量。

闪存缓存被广泛应用于各种场景,例如Meta的CacheLib就是一个典型的例子。闪存缓存通常将缓存项组织成大的段(例如Region),并通过文件或直接使用原始设备来减少I/O开销和降低写放大(Write Amplification, WA),缓存空间几乎总是被充分利用。此外,使用缓存时,大量的随机更新会加剧写放大现象,进而影响性能。ZNS SSDs为持久缓存系统提供了许多潜在的好处,包括更大的存储空间、更低的尾部延迟和更少的写放大。这些特点使得ZNS SSDs成为持久缓存系统的一个极具吸引力的选择。

当前持久缓存引擎的局限性
  • 基于文件系统的持久缓存:这类引擎通常使用文件系统作为底层存储,这在很大程度上简化了缓存管理,但文件系统的设计并不适合ZNS SSDs的要求。文件系统中的原地更新会导致写放大,增加垃圾回收的频率,从而影响SSD的性能和寿命。

  • 基于标准SSD的持久缓存:这类引擎直接使用标准SSD作为存储介质,虽然可以减少文件系统的开销,但仍然存在不兼容ZNS SSDs的问题。标准SSD通常不支持ZNS SSDs的Zone管理功能,导致无法充分利用ZNS SSDs的优势。

设计垃圾回收机制的挑战
  • 写放大:传统SSD中的垃圾回收过程往往导致写放大,即为了更新一小部分数据,需要写入更多数据。在ZNS SSDs中,由于只支持顺序写入,需要重新考虑如何在不增加写放大的情况下执行更新操作。

  • 缓存性能:在设计垃圾回收机制时,需要考虑如何不影响缓存的读写性能。高效的垃圾回收策略应该尽可能减少对缓存操作的影响,确保缓存服务的快速响应。

  • 缓存命中率:缓存命中率是衡量缓存系统性能的关键指标之一。设计垃圾回收机制时需要考虑如何通过合理的缓存替换策略来提高缓存命中率。

一、ZNS SSD作为持久缓存技术分析

面对ZNS SSDs作为持久缓存后端的挑战,需要对现有的缓存引擎进行改进和优化,以充分发挥ZNS SSDs的优势。这涉及到重新设计垃圾回收机制、磨损均衡策略等关键组件,以实现更好的性能和更长的SSD寿命。通过这些改进,ZNS SSDs可以为持久缓存系统提供更加高效、可靠和持久的存储解决方案。

为了探索利用ZNS SSDs作为持久缓存后端的可能性和权衡,研究者提出了三种可能的设计方案:

  • 文件缓存:使用兼容ZNS的文件系统,实现完全透明化。

  • Zone缓存:直接将缓存的SSD管理单元映射到固定大小的区域。

  • 中间层缓存:使用一个简单的中间层将区域接口转换为缓存管理单元的接口。

1.文件缓存

在考虑使用ZNS SSDs作为持久缓存后端时,一种可能的方案是使用兼容ZNS的文件系统。这种方案旨在通过提供通用的文件接口来实现缓存功能,但同时也带来了一些额外的开销和挑战。

文件系统缓存方案 (File-Cache)
  • 文件系统:使用兼容ZNS的文件系统(例如F2FS)来提供通用的文件接口。

  • 缓存管理:缓存项按照Region进行组织,每个Region对应ZNS SSDs的一个或多个Zone。

  • 数据组织:每个Region包含多个Zone,每个Zone大小固定,例如16MiB。

  • I/O单位:文件系统以4KiB为单位进行I/O操作。

  • 元数据与数据分离:文件系统将元数据和数据分开存储,以减少写放大。

  • 重用机制:文件系统支持Zone的重用(reclaim),以便释放不再使用的空间。

技术细节与挑战
  • 额外开销:使用文件系统会引入额外的开销,包括元数据管理、索引结构维护等。

  • 文件系统构建:需要额外的SSD来构建文件系统,例如使用F2FS作为底层文件系统。

  • 全透明性:文件系统提供的全透明接口使得优化垃圾收集变得困难。

  • 性能影响:文件系统的额外开销可能会对缓存性能产生负面影响。

  • 空间利用率:文件系统的特性可能会导致空间利用率不如直接管理ZNS SSDs的方式高。

使用兼容ZNS的文件系统作为持久缓存的方案虽然简单且易于集成,但对于追求高性能和低延迟的应用来说,它可能不是最佳选择。额外的文件系统开销和限制的优化能力可能会影响缓存系统的整体性能。因此,在选择使用兼容ZNS的文件系统之前,应仔细考虑其适用性和潜在的性能影响。

2.Zone缓存

在考虑使用ZNS SSDs作为持久缓存后端时,另一种可能的方案是直接使用ZNS SSDs的Zone接口,并将缓存管理单元(Region)与Zone大小相匹配。这种方案旨在减少映射开销,实现无垃圾回收的设计,并消除写放大现象。

直接使用Zone接口 (Zone-Cache)
  • 直接使用Zone接口:直接使用ZNS SSDs的Zone接口进行缓存管理,而不是通过文件系统或其他中间层,可以减少映射缓存管理单元到物理存储的开销。

  • 缓存管理单元与Zone匹配:将缓存中的Region映射到ZNS SSDs的Zone上,使得每个Region对应一个或多个Zone。

  • 无垃圾回收设计:由于ZNS SSDs的特性,可以实现零写放大,不需要进行内部垃圾回收。

  • 无OP空间:由于Zone的管理直接由应用程序控制,不需要额外的预留空间OP来支持垃圾回收过程。

在考虑使用ZNS SSDs作为持久缓存后端时,直接使用Zone接口,并将缓存管理单元(Region)与Zone大小相匹配是一种可行的方案。然而,较大的Region大小可能会导致更长的Region插入时间和更大的内存消耗。

  • 更长的Region插入时间:较大的Region大小意味着在插入新数据时需要更多的时间来完成整个Region的填充。这可能会影响缓存的响应时间。

  • 更大的内存消耗:较大的Region大小需要更多的内存来维护Region的状态信息,例如Region的使用情况、位置信息等。这可能会增加缓存系统的内存负担。

直接使用ZNS SSDs的Zone接口作为持久缓存后端的方案减少了映射开销,实现了无垃圾回收的设计,并消除了写放大现象。这种方案对于追求高性能和低延迟的应用来说是一个很好的选择。然而,需要注意的是较大的Region大小可能会导致更长的Region插入时间和更大的内存消耗,这可能需要在实际应用中通过适当的Region大小选择来平衡性能和资源消耗。

3.中间层缓存

在考虑使用ZNS SSDs作为持久缓存后端时,使用一个简单的中间层来提供区域接口是一种可行的方案。这种方案旨在通过中间层提供缓存管理单元(Region)与ZNS SSDs的Zone之间的适配,同时允许Region具有合适的大小。

使用中间层提供区域接口 (Region-Cache)
  • 使用中间层:使用一个简单的中间层来提供区域接口,该中间层专为缓存系统(如CacheLib)设计。通过中间层,可以为Region设定一个合适的大小,这样可以更好地适应缓存系统的需求。

  • 缓存管理单元与Zone适配:中间层负责将缓存中的Region映射到ZNS SSDs的Zone上,使得每个Region可以具有一个合适的大小,而不是严格匹配Zone的大小。

  • 需要预留空间和垃圾收集:尽管中间层提供了一个更灵活的接口,但它仍然需要预留空间OP来支持垃圾回收过程,并且需要实现垃圾回收机制来优化写放大。

中间层的存在可以提供更灵活的Region大小选择,但同时也引入了额外的映射开销。此外,预留空间和垃圾收集过程可能会对性能产生一定影响,需要在设计时予以考虑。

二、实验结果分析

1.根据微观评估结果,可以看出每种解决方案都有其独特的优势:
  • Block-Cache:这是一种使用常规SSD的传统缓存解决方案。它可以提供稳定的性能,但由于需要进行垃圾回收,可能会遇到写放大问题,影响命中率。适用于需要稳定性能和不需要特别关注写放大问题的应用场景。

  • Zone-Cache:由于其无垃圾回收的设计,Zone-Cache能够获得最高的命中率。由于ZNS SSDs的特性,一旦数据写入Zone后,需要重置整个Zone才能再次使用,这消除了内部垃圾回收的需要,从而避免了写放大。适用于追求最高命中率的应用场景,特别是那些对延迟敏感且希望避免垃圾收集带来的性能下降的应用。

  • Region-Cache:Region-Cache可以通过中间层提供缓存管理单元与ZNS SSDs之间的适配,使得Region可以具有一个合适的大小。它可以提供与Block-Cache相似的高吞吐量,但在命中率方面可能略逊于Zone-Cache。适用于需要高吞吐量和具有一定灵活性的应用场景,通过中间层提供的适配可以在性能和资源消耗之间取得良好的平衡。

2.对RocksDB的评估:作为二级缓存的不同设计方案

在RocksDB中作为二级缓存的不同设计方案的评估结果。这些评估重点关注了Region-Cache、Block-Cache以及Zone-Cache在吞吐量、延迟等方面的性能表现。

  • Region-Cache:
    • 延迟:由于Region-Cache通过中间层提供缓存管理单元与ZNS SSDs之间的适配,它可以有效地管理和调度数据,从而实现较低的延迟。

    • 吞吐量:Region-Cache通过中间层提供的适配,使得Region可以具有一个合适的大小,这有助于提高数据的读写效率,从而实现较高的吞吐量。

    • 优势:Region-Cache方案通过中间层提供的缓存管理单元与ZNS SSDs之间的适配,不仅提供了较低的延迟,还保持了较高的吞吐量。

  • Block-Cache:
    • 尾部延迟:Block-Cache方案使用常规SSD作为缓存后端,由于需要进行垃圾回收,可能会遇到写放大问题,导致较高的尾部延迟。

    • 劣势:Block-Cache方案在尾部延迟方面表现不佳,特别是在p99的延迟上最高,这可能是由于垃圾收集导致的写放大问题所引起的。

  • Zone-Cache:
    • 命中率:Zone-Cache方案由于其无垃圾回收的设计,可以实现最高的命中率。这有助于减少访问延迟并提高整体性能。

根据这些评估结果,如果目标是在RocksDB中实现最低的延迟和最高的吞吐量,则Region-Cache是最优的选择。然而,如果应用程序对命中率有较高要求,则Zone-Cache可能是一个更好的选择。

在本文中,研究人员提出了三种可能的方案,旨在使用ZNS SSDs作为持久缓存,并对其进行了详细的分析与评估。与常规SSD相比,ZNS SSDs可以作为更优秀的存储设备用于持久缓存。这一结论也在将ZNS SSD用作RocksDB的二级缓存时得到了验证。

  • Region-Cache:在作为RocksDB的二级缓存时,Region-Cache方案展现出了最低的延迟和最高的吞吐量。

  • Block-Cache:相比之下,Block-Cache方案虽然提供了稳定的性能,但由于垃圾回收导致的写放大问题,它的尾部延迟表现不佳。

  • Zone-Cache:Zone-Cache方案由于其无垃圾回收的设计,可以实现最高的命中率,这对于减少访问延迟和提高性能至关重要。

总之,ZNS SSDs作为一种新型的存储设备,具有独特的性能优势,可以作为持久缓存的理想选择。未来的研究方向应该集中在改进Zone管理机制、开发更多优化的驱逐策略以及设计新型策略来实现设备-缓存-应用协同设计。这些研究将进一步提高ZNS SSDs在持久缓存应用场景中的性能和效率。

参考文献:Yang, Chongzhuo, Zhang Cao, Chang Guo, Ming Zhao and Zhichao Cao. "Can ZNS SSDs be Better Storage Devices for Persistent Cache?" Proceedings of the 16th ACM Workshop on Hot Topics in Storage and File Systems (2024): n. pag.


如果您看完有所受益,欢迎点击文章底部左下角"关注 "并点击"分享 "、"在看",非常感谢!

精彩推荐:

相关推荐
刘九灵1 分钟前
Redis ⽀持哪⼏种数据类型?适⽤场景,底层结构
redis·缓存
安迁岚4 分钟前
【SQL Server】华中农业大学空间数据库实验报告 实验三 数据操作
运维·服务器·数据库·sql·mysql
魔珐科技12 分钟前
以3D数字人AI产品赋能教育培训人才发展,魔珐科技亮相AI+教育创新与人才发展大会
大数据·人工智能
vmlogin虚拟多登浏览器23 分钟前
虚拟浏览器可以应对哪些浏览器安全威胁?
服务器·网络·安全·跨境电商·防关联
sinovoip1 小时前
Banana Pi BPI-CanMV-K230D-Zero 采用嘉楠科技 K230D RISC-V芯片设计
人工智能·科技·物联网·开源·risc-v
上优1 小时前
uniapp 选择 省市区 省市 以及 回显
大数据·elasticsearch·uni-app
追风赶月、1 小时前
【Linux】线程概念与线程控制
linux·运维·服务器
samLi06202 小时前
【更新】中国省级产业集聚测算数据及协调集聚指数数据(2000-2022年)
大数据
Mephisto.java2 小时前
【大数据学习 | Spark-Core】Spark提交及运行流程
大数据·学习·spark
EasyCVR3 小时前
私有化部署视频平台EasyCVR宇视设备视频平台如何构建视频联网平台及升级视频转码业务?
大数据·网络·音视频·h.265