ACL 2026|告别昂贵的知识图谱:ZoomRAG 让 RAG 像地图一样“缩放“

复制代码
论文:ZoomRAG: Hierarchical Random-walk Zooming across Multi-scale Information Graphs for Fast and Accurate RAG
会议:ACL 2026
单位:华东师范大学 · 复旦大学 · 西南石油大学
联系:52285901020@stu.ecnu.edu.cn  |  kzhang@cs.ecnu.edu.cn

假如让一个人去一个陌生城市找一家小店,他通常不会一开始就把地图放到最大。

他会先看整个城市,大致定位街区,再双指放大到具体门牌。一次"缩放"比在全景里满街扫要高效得多。

但今天的RAG(Retrieval-Augmented Generation,检索增强生成)系统,主流路线却常常不是这样工作的。

面对一个动辄上万文档的知识库,它们要么把所有文本切成小块,全语料上算相似度(像拿放大镜扫全城找店铺);要么先花几小时调用大模型,把整个知识库抽成一张"实体---关系"的知识图谱,再在图上反复多跳搜索(像为了找一家店先把整座城市重新测绘一遍)。

这两条路线看似在两端取舍,其实都卡在同一个困境里:RAG 的"索引开销"、"在线速度"、"并发能力"这三件事 很难同时做好,一是离线索引太贵

以基于知识图谱的方法为例,构建一次索引往往要调用 LLM 反复抽取"实体---关系---实体"三元组,耗时动辄数小时甚至数十小时,内存占用也常常高达几十 GB。

二是在线检索太慢 。显式的图路径搜索和复杂的多跳推理,使单条 query的延迟动辄几秒到十几秒,很难满足真实产品对响应时间的要求。三是并发几乎无解

现有基于结构化索引的方法大多只能串行执行,如果用朴素的数据并行直接复制整张图,几十条并发就会把显存打爆。

ACL 2026论文ZoomRAG(华东师范大学、复旦大学、西南石油大学联合提出)给了一个干脆的答案:完全不建知识图谱,只用最便宜的命名实体识别(NER)搭两层不同粒度的关系图,让带重启的随机游走像双指缩放地图一样------先在一张全局粗粒度图上锁定少量相关文档,再在这些文档内部的细粒度局部图上精准定位证据块,从而系统地激活RAG的"先粗后细"能力。

这个设计听起来朴素,但把RAG系统在四个维度上一起往前推了一大截:准确率、离线索引开销、单条延迟、以及并发吞吐。方法的整体结构如下图。

图 1:ZoomRAG 的两阶段检索流程------先在全局图上做 DocZoom 粗筛,再在局部图上做 ChunkZoom 精筛。

ZoomRAG 的三件事

第一,粗粒度 DocZoom:在全局图上锁定相关文档。

ZoomRAG第一层图是一张三部图:一个查询节点、所有文档节点、所有实体节点。边也只有四种------文档与文档的语义相似度(Jina embedding 内积并稀疏化)、查询与文档的相似度、文档里出现的实体、查询里提到的实体。

从查询节点出发跑一次带重启的随机游走(Random Walk with Restart),就能在整个语料上得到 Top-K 最相关文档。

这里有个容易被忽略但很关键的细节:HippoRAG、LinearRAG等方法在游走时把查询节点用完就丢,只让它的一阶邻居继续传播;ZoomRAG则把查询节点保留在每一轮的重启分布里,让"查询语义"像一根锚一样贯穿始终,避免游走漂走。

第二,细粒度 ChunkZoom:在选中的文档内部定位证据块。

拿到 Top-K 文档后,ZoomRAG 在这些文档内部再搭一张小图,只含文本块节点和实体节点,通常只有几十个节点。这层图的巧思在于------把"时间"也编码进了边权:块和块之间的边不只是语义相似度,还叠加了一个基于原文位置的高斯邻近项。

为什么这一点重要?多跳推理中,关键证据之间往往有天然的顺序("因为A所以B导致C")。把这种顺序信号直接写进图里,等于在检索阶段就帮下游LLM做了一次证据排序,而不是扔一堆零散片段让它自己拼逻辑。由于图极小,这一步还可以直接解稳态方程(一次小矩阵求逆),比迭代传播更精确。

第三,算法级并行:让一张图服务成百条查询。

ZoomRAG最容易被忽视、但工业界最在意的贡献,是它的 Algorithm-Parallel版本。传统做法面临两难:串行太慢;朴素数据并行又要每次复制一整张全局图,几十条并发就会 OOM。

ZoomRAG在数学上把"跨查询共享的文档---实体图 "和"每条查询独立的向量"严格解耦,只存一份全局图,再用批量矩阵运算把所有query的随机游走一次算完。三种方案的时间/空间复杂度对比如下。

图 2:三种并行方案的时间/空间复杂度------算法级并行在保持速度的同时大幅压缩内存。

实验结果

评估围绕三件事展开:多跳QA的答题准确率、证据检索的召回率、以及端到端的系统开销(离线索引、在线延迟、并发可扩展性)。

作者在 2WikiMultiHopQA、HotpotQA、MuSiQue 三个多跳问答榜单上与12个基线(RAPTOR、SiReRAG、GraphRAG、HippoRAG/HippoRAG 2、HopRAG、LightRAG、LinearRAG 等)做了严格对比,所有方法均用官方代码复现,统一采用GPT-4o-mini 作答、jina-embeddings-v3 做嵌入。

准确率:三个榜单全部 SOTA。 ZoomRAG平均 F1 达到 68.01,比此前最强的HippoRAG 2高3.0个百分点,EM/F1 在不同数据集上的绝对提升稳定在 2.2%--4.9%。

图 3:三个多跳问答榜单上的 EM/F1 对比

**召回率:先粗后细没有丢证据。**多阶段检索的固有风险是第一阶段漏文档、后面再精细也救不回来。

ZoomRAG三个数据集上的证据召回率全部最高,平均达到 94.32%,比 HippoRAG 2高2.61个百分点,在 MuSiQue上差距拉到+5.55个百分点------这说明ZoomRAG的粗筛阶段依靠全局图上的随机游走保证文档覆盖率,细筛阶段再在局部图上精确定位关键证据块,两步形成互补而不是串联叠错。

图 4:三个数据集上的证据检索召回率

效率:这可能是 ZoomRAG 最有冲击力的数字。 离线索引平均只要 346 秒------对比 LightRAG 的 153,474 秒(约 42 小时),是440 倍加速;对比 HippoRAG 2的3,343 秒,快 10 倍、省 6 倍内存。

在线单条query平均0.019 秒(即 19 毫秒),对比GraphRAG的15.35秒是807倍加速,对比目前最快的基线LinearRAG也仍有 6.8 倍优势。而且ZoomRAG的索引支持增量更新------新文档只需往邻接矩阵追加新行,不必重建整张图。

图 5:离线索引开销与在线检索效率对比

并发:512条query,内存几乎不动。 从1条并发扩到512条,ZoomRAG内存增长不到1%,单条延迟从 0.129 秒一路降到 0.019 秒;朴素数据并行的基线在 27 条并发时就 OOM 了。这个差距直接决定了系统能不能真的放进产品里服务大规模用户。

图 6:并发设定下的内存占用与单条延迟------算法级并行几乎不随 batch size 增长。

大规模扩展:5M 到 50M token 近线性。 把语料从 5M 扩到 50M token,ZoomRAG 索引时间和内存都近线性增长;50M token 下 5,753 秒、32.5 GB------相比 LinearRAG 的 136,426 秒、124.9 GB,是 23 倍加速、73% 内存节约。

图 7:5M--50M token 语料下 ZoomRAG 与 LinearRAG 的索引开销对比。

一个反直觉的发现:索引做减法,效果反而更好

在所有参与对比的方法中,准确率最高的不是那些花费数万秒、调用LLM反复抽取三元组的知识图谱方法,而是ZoomRAG这个只依赖命名实体识别(NER)、甚至显得"朴素"的方案。

这说明,对RAG而言,"索引做得更重"和"检索效果更好"之间没有必然的正相关。知识图谱理论上能表达更丰富的关系,但三元组抽取本身是噪声来源------大模型在长文本里抽出的关系常常带幻觉和冗余,越大的图越容易把错误放大。

ZoomRAG的性能优势反而来自另一种思路:不再试图在一张大图里把所有关系一次性刻画清楚,而是让不同尺度的信息在不同阶段各司其职。对需要穿透多跳关系、找到正确证据链的任务来说,这种"先粗后细"的状态,反而比一张显式但充满噪声的知识图谱更利于检索的稳定性。

消融实验也印证了这一点:去掉粗粒度文档---文档边,平均 F1 掉 14个点;去掉细粒度块---块边(含时序和语义),再掉10个点;去掉实体节点,整体塌15.6个点。ZoomRAG 里每一条边都不是摆设------这种"精确到位"的设计,恰恰是臃肿的知识图谱很难做到的。

图 8:消融实验

写在最后

这几年结构化 RAG 的研究里,有一种"越重越强"的路径依赖:索引越做越大,图越建越复杂,好像更强的RAG必然意味着更昂贵的知识图谱。

ZoomRAG反着走一步------把索引做减法,把算法做加法:十分之一的索引开销、百倍级的在线加速、以及可扩展到上百并发的算法设计,换来的却是三个多跳榜单上最高的准确率。

这或许也是一个信号:在知识图谱之外,结构化 RAG 还有尚未被充分挖掘的空间。至于那些曾被默认"必须付出"的索引代价,也许值得重新审视一下。

相关推荐
2501_943205051 小时前
【192期】视频音频文案一键提取工具
经验分享
我没胡说八道2 小时前
毕业论文降 AI 率工具横评:谁才是 AI 检测的 “破局者”?
人工智能·经验分享·深度学习·考研·论文
易项4 小时前
催活自动化,用项目数字化平台让进度“自动跑”
经验分享·ai·项目管理·企业数字化转型·项目管理工具·易趋项目管理软件
谙弆悕博士5 小时前
Fortran学习笔记
经验分享·笔记·学习·职场和发展·跳槽·学习方法·fortran
bitbrowser7 小时前
2026年防关联指纹浏览器评测天梯榜
经验分享
渣渣灰95878 小时前
数字证书介绍
经验分享·笔记
三流架构师15 小时前
事业单位资源合集(第二辑)
经验分享
沃虎Chinty-0320 小时前
CHIP LAN(片式网络变压器)选型决策指南:从需求到量产
经验分享·智能硬件
jedi-knight1 天前
Vibe SRM:用自然语言设计固体火箭发动机,AI做到了
人工智能·经验分享·agi