用代理知识蒸馏方法克服错误的文档摄取和RAG策略
关键要点
- 研究表明,Agentic Knowledge Distillation + Pyramid Search Approach 可能改善 RAG 系统,尤其在处理复杂跨文档问题时表现更好。
- 证据倾向于支持该方法通过分层信息金字塔(从原子洞察到一般回忆)提高检索效率和响应质量。
- 该方法在事实查找和复杂分析任务中显示出较低的延迟和高效的令牌使用,但评估指标仍存在争议。
介绍
本文介绍了一种名为"Agentic Knowledge Distillation + Pyramid Search Approach"的方法,旨在克服生成式 AI 中 Retrieval Augmented Generation (RAG) 系统的文档摄取和策略失败问题。该方法通过在摄取时使用大型语言模型(LLM)将文档分层为信息金字塔,并在检索时高效利用这些层级,显著提升了 RAG 的性能。
方法概述
该方法的核心是将原始文档转换为 Markdown 格式,然后通过以下步骤构建信息金字塔:
- 提取原子洞察:使用两页滑动窗口从每页提取简单的主谓宾(SVO)格式的洞察,确保清晰和精确。
- 提炼概念:从洞察中识别更高层次的概念,减少噪声并保留关键信息。
- 生成摘要:基于概念和洞察为每个文档生成信息密集的摘要。
- 存储回忆:在金字塔顶端存储跨文档的关键信息,如任务相关数据或数据集的动态学习内容。
在检索时,系统可以访问金字塔的任何层级,根据用户查询的复杂性选择合适的信息,例如事实查找可能仅需洞察层,而复杂分析可能需要概念和摘要层。
实际应用与效益
研究团队使用道琼斯工业平均指数 30 家公司的年度和季度报告(从 SEC EDGAR 网站下载,SEC EDGAR)进行测试。结果显示:
- 事实查找任务(如"IBM 2024 年第三季度的总收入是多少?")使用 9,994 个总令牌,响应仅需 1,240 个令牌,准确且高效。
- 复杂分析任务(如分析微软和英伟达在 AI 领域的投资和市场定位)使用 26,802 个总令牌,生成详细报告,响应部分占 2,893 个令牌,人类验证有效。
该方法显著降低了模型的认知负荷,优化了令牌使用和速度,尤其在处理表格数据时表现优异。此外,它支持大规模数据集的扩展性,并能自然语言方式探索概念,类似于知识图谱但更高效。
意外的发现
一个意外的好处是系统通过访问金字塔的高层(如摘要和回忆)能够对数据集产生更全面的理解,例如回答"关于这个数据集你能告诉我什么?"或建议有生产力的搜索主题。
详细报告:Agentic Knowledge Distillation + Pyramid Search Approach 的全面分析
引言与背景
生成式 AI 的许多应用场景仍依赖于 Retrieval Augmented Generation (RAG),但常常无法满足用户期望。尽管 RAG 改进研究不断增加,甚至引入了代理(Agents),许多解决方案仍存在不足:无法提供详尽结果,忽略文档中关键但不常提及的信息,需要多次搜索,且难以整合多文档的关键主题。此外,许多实现方式试图将尽可能多的"相关"信息塞入模型的上下文窗口,伴随详细的系统和用户提示,这往往超过模型的认知能力,影响响应质量和一致性。
为此,作者团队(Jim Brown、Mason Sawtell、Sandi Besen 等人)提出了 Agentic Knowledge Distillation + Pyramid Search Approach。该方法在摄取时充分利用模型能力,专注于从文档数据集提炼和保存最有意义的信息,从而简化 RAG 过程,使模型能将推理能力集中在处理用户/系统指令上,而非挣扎于理解文档块的格式和分散信息。
数据集与研究设计
研究使用过去一年道琼斯工业平均指数 30 家公司的年度和季度报告,这些报告可通过 SEC EDGAR 网站免费下载或查询(SEC EDGAR)。该数据集的选择基于两点:首先,它超出了评估模型的知识截止日期,确保模型无法依赖预训练知识回答问题;其次,它接近现实商业问题,同时允许使用公开数据讨论和分享发现。根据 SEC 隐私政策,网站信息被视为公共信息,用户可无须 SEC 许可复制或进一步分发。
方法详解:构建信息金字塔
该知识提炼过程从原始文档创建多层次信息金字塔,灵感来源于深度学习计算机视觉任务中的金字塔结构,允许模型在多个尺度分析图像。步骤如下:
- 转换为 Markdown:将所有原始文档转换为 Markdown 格式。研究发现,模型处理 Markdown 比 JSON 等格式更高效,且令牌使用更经济。使用 Azure Document Intelligence 生成每页 Markdown,也可使用开源库如 MarkItDown。数据集包括 331 份文档,16,601 页。
- 提取原子洞察:使用两页滑动窗口处理文档,每页被分析两次,允许代理纠正初始处理中的潜在错误。指示模型创建编号洞察列表,随着文档页面的处理而增长,代理可覆盖前一页的错误洞察。洞察以简单主谓宾(SVO)格式提取,仿若英语为用户第二语言,显著提高清晰度和精确度。多次滚动页面和使用 SVO 格式解决了知识图谱的歧义问题,尤其在提取表格信息时有效,模型以清晰简洁的句子捕捉事实。数据集生成 216,931 个洞察,平均每页 13 个,每文档 655 个。
- 提炼概念:从详细洞察列表中识别连接相关信息的更高层次概念,显著减少文档中的噪声和冗余,同时保留关键信息和主题。数据集生成 14,824 个概念,平均每页 1 个,每文档 45 个。
- 生成摘要:基于洞察和概念,LLM 编写摘要,比人类撰写的或原始文档中的任何摘要更全面且信息密集。生成的摘要以小令牌密度承载大量信息,每文档生成一个,共 331 个。
- 存储回忆/记忆:在金字塔顶端存储对所有任务有用的关键信息,可能包括用户关于任务的共享信息或代理通过研究和响应任务逐渐学习的数据集信息。例如,可存储当前道琼斯 30 家公司列表,因其与模型知识截止时的列表不同。随着更多研究任务的进行,可持续改进回忆,并维护这些回忆来源的审计跟踪,如跟踪公司间的 AI 策略或重大投资领域。这些高层连接揭示单页或单文档中不明显的关联。
存储与检索
文本和嵌入存储在 Azure PostgreSQL 中,最初使用 Azure AI Search,但因成本原因切换至 PostgreSQL,需要自行实现混合搜索功能,因 PostgreSQL 尚未原生支持。该实现适用于任何向量数据库或索引,关键是高效存储和检索金字塔各层的文本和向量嵌入。
该方法本质上创建了知识图谱的精髓,但以自然语言存储,符合 LLM 的交互方式,且在令牌检索上更高效。允许 LLM 选择金字塔各层的分类术语,例如首层偏好"洞察"而非"事实",以理解 LLM 如何思考和组织信息。
使用金字塔:与 RAG 和代理的集成
在推理时,传统 RAG 和代理方法均受益于预处理后的提炼信息。金字塔结构支持高效检索:传统 RAG 检索最相关的 X 条信息,而代理方法则迭代规划、检索和评估信息后返回最终响应。
金字塔方法的优势在于推理时可使用任何层级信息。实现中使用 PydanticAI 创建搜索代理,处理用户请求,生成搜索词,探索相关想法,跟踪相关信息。确定有足够信息后,重新排序结果并发送至 LLM 生成最终回复。代理可遍历金字塔信息,类似于知识图谱遍历,但以自然语言存储,更适合 LLM。
根据用例,代理可访问金字塔所有层或特定层(如仅概念)。实验中未检索原始页级数据,聚焦令牌效率,发现洞察、概念、摘要和回忆已足够完成任务。理论上,代理也可访问页数据,但会显著增加令牌使用。
实际结果:真实世界示例
评估通过测试事实查找和复杂跨文档研究分析任务:
- 事实查找:任务如"IBM 最新财务报告的总收入是多少?"响应为"IBM 2024 年第三季度总收入为 149.68 亿美元 [ibm-10q-q3-2024.pdf, pg. 4]",使用 9,994 个总令牌,响应占 1,240 个,人类验证正确。
- 复杂研究分析:任务如分析微软和英伟达在 AI 领域的投资和市场定位,生成详细报告,使用 26,802 个总令牌,响应占 2,893 个(约 11%),人类验证有效。另一任务分析道琼斯金融公司披露的风险,区分共享和独特风险,使用 31,685 个总令牌,响应占 3,116 个,耗时 42.7 秒。
这些结果显示金字塔方法高效生成详细报告,低延迟,少令牌使用,响应质量高。
效益分析
金字塔方法显著提升高价值问题的响应质量和整体性能,关键效益包括:
- 降低模型认知负荷:代理接收用户任务时,检索预处理提炼信息而非原始文档块,减少首次理解文本的负担。
- 优越的表格处理:将表格信息以简洁描述句存储,便于推理时通过自然语言查询检索,特别适合财务报告。
- 提升多种请求的响应质量:支持精确事实查找和跨多文档主题分析的全面上下文响应。
- 保留关键上下文:提炼过程识别并跟踪关键事实,如所有表格单位为百万美元,传统分块方法易忽略。
- 优化令牌使用、内存和速度:摄取时提炼信息,减少推理时令牌需求,最大化上下文窗口价值。
- 可扩展性:许多解决方案随文档数据集增长表现下降,该方法通过仅保留关键信息更高效管理大量文本。
- 高效概念探索:类似知识图谱导航,但以自然语言操作,保持高令牌效率和流畅性。
- 涌现数据集理解:意外好处,系统通过访问高层(如摘要和回忆)回答数据集相关问题或建议搜索主题。
挑战与未来方向
评估系统尤其在多答案或分析型响应时具挑战,传统 RAG 和代理评估框架常不足以处理细微问题。现有数据集多聚焦单文档或精确多文档检索,而非跨文档概念和主题分析。团队计划撰写研究论文,欢迎社区反馈,尤其在评估指标上。
未来方向包括处理动态数据集(文档持续添加、编辑、删除),跟踪回忆有效性至关重要。应用到组织数据,可识别业务领域差异,如销售演示文稿中产品定位不一致,或比较业务线数据洞察,助理解主题或优先级冲突,超越纯信息检索,成为组织对齐工具。
结论
Agentic Knowledge Distillation + Pyramid Search Approach 重要性在于摄取和检索时充分利用 LLM 能力,以少令牌存储密集信息,减少噪声,响应秒级完成,平均使用 <40K 令牌(包括所有搜索迭代)。LLM 擅长以句子形式编写原子洞察,有效处理文本和表格数据,便于推理时理解和导航,无需额外处理格式或过滤噪声。金字塔各层信息检索灵活,适合大型数据集和高价值用例,需细致信息检索和分析。