突破LLM推理KV Cache瓶颈的国产高性能解决方案
随着大语言模型(LLM)在生产环境的广泛部署,推理性能已成为制约系统吞吐量和响应延迟的关键因素。vLLM、TensorRT-LLM等主流推理引擎在处理长上下文窗口时,会产生大量的KV Cache(Key-Value Cache),这些中间状态原本需要驻留在GPU的显存中。然而,显存容量有限且成本高昂,当上下文窗口超出显存容量时,系统只能通过反复重新计算已清除的上下文来继续推理,这导致端到端延迟显著增加、吞吐量大幅下降。
为解决这一痛点,业界出现了多种KV Cache offload方案:将部分或全部KV Cache卸载到更低成本、更大容量的存储介质上,并在需要时快速检索。绿算技术推出的 NVMe RAID加速卡,正是国产化背景下的一款高性能、高灵活性解决方案。它以纯硬件实现并行RAID逻辑,结合创新的NVMe命令与数据分离传输机制,为KV Cache offload提供极致低延迟、高吞吐量的存储后端,能够大幅提升LLM推理性能,同时保持完全自主可控。

LLM推理中的KV Cache瓶颈
在Transformer架构中,注意力机制的计算复杂度随序列长度平方增长。为避免重复计算,推理引擎通常采用KV Cache技术:在预填充(prefill)阶段计算并缓存Key和Value向量,在解码(decode)阶段直接复用,从而将复杂度降至线性。然而,随着用户请求上下文窗口的增长(动辄数万甚至数十万token),KV Cache所需内存迅速膨胀。而当前主流GPU(如H100)的显存容量仅80GB,且需同时容纳模型权重、激活值等。若多个并发请求共享同一GPU,显存很快耗尽,系统只能:
- 丢弃旧的KV Cache,重新计算(计算开销巨大);
- 减少并发批次(吞吐量下降);
- 增加GPU数量(成本急剧上升)。
因此,业界迫切需要一种"sub-显存"存储层:容量大、成本低、访问速度接近显存,绿算 NVMe RAID加速卡正是为此而生。
绿算 NVMe RAID加速卡硬件特性
绿算 NVMe RAID加速卡基于自研LightBoat2300 平台,具有以下关键规格:
- PCIe Gen4或Gen5接口,充分匹配主流GPU服务器;
- 支持最多16块NVMe SSD;
- 支持RAID 0/1/5/10,Chunk大小4KB~64KB可调;
- 纯硬件逻辑实现RAID校验与数据分发,不占用主机CPU资源;
- 创新并行架构NVMe命令/数据分离传输机制,已获发明专利;
- 标准半高半长AIC形态,无需额外线缆,部署简便。
与传统串行硬件RAID相比,绿算并行RAID彻底突破传输瓶颈,极大释放NVMe SSD原生性能。与软件RAID相比,则完全免除CPU开销,将宝贵算力留给业务。

极致性能:实测数据说话
绿算 NVMe RAID加速卡在8块企业级NVMe SSD组成的RAID0阵列下,展现出惊人性能。以下为关键测试结果(FIO工具,4KB随机读写,队列深度与并发优化后):

这些指标远超传统RAID卡,尤其在大块随机读写场景,延迟低至微秒级,带宽轻松突破40GiB/s级别,足以支撑多GPU共享的高并发推理。

在KV Cache加速中的应用架构
绿算 NVMe RAID加速卡可灵活部署于两种典型场景:
- 超融合模式(Box LLM)
将卡直接插入GPU服务器主板,利用服务器内置或扩展的NVMe插槽组成大容量、高性能存储池。GPU通过PCIe直连访问RAID虚拟盘,将超出显存的KV Cache卸载至SSD。得益于PCIe低延迟与并行处理,访问延迟接近本地NVMe,远低于网络存储方案。
- 分离模式(Disaggregated KV Cache)
将RAID卡部署在专用存储节点,通过100G RDMA网络(卡支持双路100G QSFP28)为多个GPU节点提供共享KV存储服务。预填充节点与解码节点可分离部署,实现计算/存储解耦,提升集群整体利用率。
在软件层面,绿算正在与主流推理框架深度集成:
- 与vLLM兼容的KV Cache offload模块:支持分页式卸载、按需加载;
- 支持UCM等推理管理器;
- 未来将提供端到端解决方案,包括智能路由、多节点共享、自动故障切换等功能的完整产品包。

性能提升预期
根据现有实测数据与业界类似方案对比:
- 单卡8盘RAID0配置下,4KB随机读IOPS超3600k,平均延迟<600μs,已足以将vLLM长上下文推理速度提升2-4倍;
- 当扩展至16盘时,预计IOPS可线性扩展至7000k+,理论带宽能突破120GiB/s,进一步KV Cache的使用体验;
- 相比其它方案,可用"内存"容量扩大10-50倍,性价比提升显著;
- 相比网络存储方案(CXL、RDMA),延迟降低50%以上,无需复杂协议栈。
在实际生产环境中,用户可通过增加SSD数量而非GPU数量来扩展KV Cache容量,大幅降低使用成本。
自主可控与生态优势
绿算 NVMe RAID加速卡核心IP完全自研,源代码级可控,无任何国外封闭组件,完美契合信创与数据安全要求。同时,天然的可编程特性带来极高灵活性:
- 可根据具体工作负载定制Chunk大小、队列深度、预取策略;
- 未来可集成压缩、加密、向量相似度加速等专用逻辑;
绿算 NVMe RAID加速卡以国产自主核心技术,结合创新并行架构与极致性能表现,为LLM推理中的KV Cache瓶颈提供了高效、低成本的解决方案。它不仅能将推理速度提升数倍,更为大模型生产化部署带来全新的容量扩展与成本优化路径。助力中国企业与开发者构建自主可控的下一代AI基础设施。