无 Embedding、无向量数据库的 RAG 方法:PageIndex 技术解析

PageIndex 是一种无向量、基于推理的检索增强生成(RAG)方法,无需 Embedding、分块或向量数据库即可从长文档中检索答案。

它不依赖语义相似度搜索,而是从文档中构建一棵层次化的目录树(TOC),再由大语言模型对该结构进行推理。模型先借助文档的层级结构定位最相关的章节,然后导航至该章节,生成精确且带引用的答案。

传统 RAG 通过相似度进行检索。PageIndex 通过对结构的推理进行检索。

财务报告、法律合同、监管文件、政策文档、学术论文这种结构清晰的长文档都是它的优势领域。

多数 RAG 系统依赖 Embedding 和向量数据库:把文档拆成块,转成向量,用余弦相似度找答案。但相似度不是推理。PageIndex 采用了另一个方法,通过文档结构的推理而非语义搜索来检索信息。文档不再是一堆扁平文本,而是一个带层级的结构体系,类似于一本附有目录的教科书。

下面用经典电影《Sholay》来演示其工作原理。

核心思想:先理解结构,再进行搜索

把《Sholay》的剧本或详细剧情概要输入 PageIndex,它不会将文档拆分为任意的 500 词分块,而是构建故事的结构树:

复制代码
 Document → Hierarchical Index → Reasoning-Based Retrieval → Answer

传统路径则是:

复制代码
 Document → Chunks → Embeddings → Vector DB → Similarity Search → Answer

阶段一:创建树结构(索引阶段)

第一阶段完成结构化索引,分为两步。

1、结构检测

LLM 读取剧本,检测自然边界:场景标题("SCENE 1 --- THE TRAIN ROBBERY")、角色介绍、幕次分隔、重要叙事转折。它依赖的是叙事结构,而非固定的分块大小。

  • 🎬 深色根节点 → 代表完整文档
  • 🔵 蓝色 → 主要故事段落
  • 🔴 红色 → Gabbar 相关故事线
  • 🟣 紫色 → 关键事件节点
  • 🟠 金色 → 具体事实事件

2、层次化映射

PageIndex 构建一棵树。根节点是 Sholay,第一级分支可能包括:序幕、招募 Veeru 和 Jai、Ramgarh 的生活、Gabbar 的恐怖统治、最终决战。每个分支还可以包含子节点。

以 Gabbar's Den 为例,其摘要为:"本节涵盖 Gabbar Singh 的出场介绍、'Kitne aadmi the'台词以及对手下的惩罚。"

每个节点包含:

  • title
  • nodeId
  • summary
  • child nodes

关键在于LLM 为每个节点写一段简洁的语义描述的摘要说明该章节发生了什么,这段摘要在后续查询阶段将充当检索信号。

阶段二:查询阶段

假设用户提问:

为什么 Thakur 失去了双臂?

完整剧本不会被整体发送,不会生成 Embedding,也不会执行向量相似度搜索。LLM 接收到的只有三样东西:用户的问题、层次化映射(JSON 树)、每个节点的摘要。不是完整剧本,只有结构。

LLM 如何找到答案(推理,而非数学计算)

步骤 1:结构搜索

LLM 读取这棵树,看到"Thakur 家族的屠杀""Gabbar 的复仇""Ramgarh 的生活"等节点。根据摘要进行推理:答案很可能存在于涉及 Gabbar 和 Thakur 受伤的章节中。这是逻辑推理,不是向量相似度计算。

步骤 2:深入探索

PageIndex 随后仅检索这些特定节点对应的原始文本。不扫描 50 页内容,只取回 2-3 个聚焦章节。

步骤 3:最终回答

LLM 读取这段高度相关的文本片段,给出回答:

Thakur 失去双臂是因为 Gabbar Singh 为报复 Thakur 多年前的逮捕行为而将其双臂砍断。

同时附上引用:

复制代码
 (nodeId: massacre-thakur-family)

检索过程可解释、可追溯。

PageIndex 与传统 RAG 的差异(针对结构化文档)

传统向量 RAG 系统中,搜索"Thakur 的手臂"可能返回:Jai 和 Veeru 打斗中使用手臂的场景、包含相似词汇的对话,以及"手"或"受伤"的无关提及。向量搜索按语义接近度检索,不考虑叙事相关性------本质上是在做"氛围匹配"。

PageIndex 不存在这个问题。屠杀场景的摘要已经明确写道:

"本节描述了 Gabbar 如何攻击 Thakur 的家族并砍断了他的双臂。"

LLM 不是在猜测,而是在导航。

PageIndex 有效的原因

它将两个认知任务分开处理:导航,确定答案应该存在的位置;提取,仅阅读该章节并生成答案。

这与人类的阅读方式相同。想知道小说中某件事为何发生,不会随机翻阅每一页,而是直接翻到相关事件所在的章节,PageIndex 让 LLM 遵循同样的行为模式。

适用场景

这种架构在以下场景中表现突出:财务报告、法律文档、政策文件、监管备案、学术研究、长篇叙事内容。凡是结构重要性超过表面相似度的场合,都是它的用武之地。

总结

传统 RAG 的假设:相关性等于语义相似度。PageIndex 的假设:相关性等于结构化推理。

差异看似微小,在长篇层次化文档中却影响深远。PageIndex 没有去造一个更好的搜索引擎,而是画了一张导航地图,让 LLM 先思考,再阅读。

https://avoid.overfit.cn/post/5a974d0889904edeb9cdca7945e132be

by Vishal Mysore

相关推荐
财经资讯数据_灵砚智能1 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年4月13日
人工智能·python·信息可视化·自然语言处理·ai编程
跨境摸鱼1 小时前
海外仓压力加大跨境卖家如何优化履约结构
大数据·人工智能·跨境电商·亚马逊·内容营销
带娃的IT创业者1 小时前
学习率调度——让学习“先快后慢“
人工智能·深度学习·学习·梯度下降·超参数调优·学习率调度
葡萄城技术团队1 小时前
【Excel 公式学习】告别“&”时代:TEXTJOIN 函数的万能用法
大数据·人工智能
天天进步20151 小时前
[前端篇] 桌面端与 AI 的碰撞:Toonflow 基于 Electron 的高效交互实现
前端·人工智能·electron
敲上瘾2 小时前
大模型接入从入门到实战:API/SDK/本地部署/Claude Code 路由全解析
人工智能·深度学习·机器学习·json·aigc·claude
秦jh_2 小时前
【LangChain】LangChain 与 LangGraph 介绍
人工智能·langchain
captain_AIouo2 小时前
Captain AI:破解OZON困局,赋能竞争优势
大数据·人工智能·经验分享·aigc
黎阳之光2 小时前
【从虚拟到实体:黎阳之光实时三维重构,开启AI空间智能新纪元
大数据·人工智能·算法·安全·数字孪生