当前的大型语言模型 (LLMs) 虽然在知识存储方面取得了显著进展,但仍然缺乏高效整合新知识的能力。传统的检索增强生成 (RAG) 方法虽然允许向静态模型中添加新知识,但仍然无法有效地跨段落整合信息。为了解决这一问题,本文提出了 HippoRAG,一个受人类长期记忆中海马体索引理论启发的检索框架,旨在实现更深入、更高效的知识整合。
代码链接:github.com/OSU-NLP-Gro...
以下带来本篇论文的精读和分析,请注意,本文内容仅为部分概述和初步理解。为了确保信息的准确性和完整性,强烈建议各位朋友查阅并阅读原文,以获得最详尽的论述和实验分析。
一、原文摘要
为了在充满挑战且瞬息万变的自然环境中茁壮成长,哺乳动物的大脑进化出了存储大量世界知识的能力,并能持续整合新信息,同时避免灾难性遗忘。尽管大型语言模型(LLMs)已经取得了显著成就,但即便是结合了检索增强生成(RAG)技术的大型语言模型,在预训练后仍难以高效、有效地整合大量新经验。
在本研究中,我们提出了一种名为HippoRAG的新型检索框架。该框架受人类长期记忆中海马索引理论的启发,旨在实现对新经验中知识的更深层次、更高效整合。
HippoRAG协同整合了大型语言模型、知识图谱和个性化PageRank算法,以模拟人类记忆中新皮层与海马体的不同作用。我们通过多跳问答任务将HippoRAG与现有的RAG方法进行了比较,结果显示,我们的方法性能卓越,超越当前最先进技术高达20%。HippoRAG的单步检索性能与IRCoT等迭代检索方法相当或更优,而其成本却降低了10-30倍,速度提升了6-13倍。将HippoRAG整合到IRCoT中,还能带来进一步的显著增益。最后,我们证明了该方法能够解决现有方法无法应对的新型场景问题。
二、解决的问题
传统的信息检索方法在处理多步骤检索任务时,存在效率低下、效果不佳的问题。这是因为它们往往只关注当前步骤的检索结果,而忽略了前后步骤之间的关联性和连续性。
HippoRAG模型旨在解决LLMs在整合新信息和长期记忆方面存在的问题。具体来说,它解决了以下几个关键问题:
- 多步骤推理和分散信息整合的局限性:传统的RAG方法在多步骤推理和整合分散信息方面存在局限性,尤其是在处理复杂领域(如医学、法律和科学)中的信息时。HippoRAG通过结合知识图谱和个性化PageRank算法,能够更有效地找到和整合语料库中的相关信息。
- 灾难性遗忘:LLMs在整合新信息时,往往会忘记之前获得的知识,导致灾难性遗忘。HippoRAG通过模仿人类大脑的记忆机制,能够在不断更新的环境中保持长期记忆。
- 迭代检索的效率和成本:传统的迭代检索方法(如IRCoT)在效率和成本方面存在不足。HippoRAG通过单步检索实现了与迭代检索相当或更好的性能,同时大大降低了成本和提高了速度。
三、方法
3.0、海马体记忆索引理论
人类大脑在检索信息时展现出卓越的能力,它能够高效地利用长期记忆中的丰富知识和经验,完成复杂的多步骤检索任务。
海马体,作为大脑中的关键结构,承担着形成和存储情景记忆的重要角色。它不仅接收、处理来自大脑各区域的信息,还特别擅长存储与情感、空间和时间相关的记忆。海马体的功能类似于记忆的中转站或索引系统,它协助大脑将短期记忆转化为长期记忆,从而在新皮质中稳固存储。
海马记忆索引理论进一步阐释了记忆的巩固过程,即短期记忆是如何转化为长期记忆的。在这个过程中,海马体发挥着至关重要的作用,它通过不断激活记忆路径来强化记忆痕迹,确保记忆在新皮质中的稳定存储。
例如,想找到斯坦福教授托马斯进行阿尔茨海默症研究的记录,传统 RAG 可能难以完成此任务,除非有段落同时提到斯坦福和阿尔茨海默症。然而人类则能通过联想记忆迅速联想到这两点。这就是 HippoRAG 的灵感来源。
3.1、原理总述
HippoRAG方法的原理主要基于人类大脑的长期记忆机制。人类大脑在记忆信息时,会将信息存储在长期记忆中,并通过神经网络的连接实现信息的关联和整合。当需要检索信息时,大脑会根据当前的需求和上下文信息,在长期记忆中快速定位到相关信息,并通过神经网络的连接实现信息的提取和呈现。
HippoRAG方法借鉴了人类大脑的这一记忆机制,通过构建知识的长期记忆存储(离线索引阶段)和模拟人类大脑的信息检索过程(在线检索阶段),实现了多步骤检索任务的高效处理。
具体来说,HippoRAG方法将知识存储为结构化的知识图谱,并利用索引技术实现快速检索。同时,通过个性化页面排名(PPR)算法对检索结果进行排序和呈现,进一步提高了检索结果的准确性和相关性。
在HippoRAG方法中,知识的存储和检索都是基于大型语言模型(LLM)和开放信息抽取(OpenIE)技术的。这些技术能够实现对文本信息的自动化处理和结构化存储,为HippoRAG方法的高效检索提供了有力支持。同时,HippoRAG方法还充分利用了人类大脑的记忆机制和神经网络的连接特性,实现了对复杂信息的快速准确检索和处理。
3.2、离线索引阶段
HippoRAG的离线索引阶段类似于记忆编码过程,使用一个指令调整的大型语言模型(LLM)作为人工新皮层,通过开放信息提取(OpenIE)从检索语料库中的篇章中提取知识图谱(KG)三元组。这个过程提取出篇章中的显著信号作为离散名词短语,而不是密集的向量表示,从而实现更细粒度的模式分离。
离线索引阶段是HippoRAG方法的基础,它主要负责构建知识的长期记忆存储。具体来说,该阶段包括以下几个步骤:
- 文本预处理:对输入的文本进行预处理,包括分词、去除停用词等,以提取出有意义的文本信息。
- 命名实体识别(NER) :利用大型语言模型(LLM)对预处理后的文本进行命名实体识别,提取出文本中的关键实体信息。这些实体信息将作为后续步骤的检索依据。
- 开放信息抽取(OpenIE) :对文本进行开放信息抽取,提取出文本中的三元组信息(主语-谓语-宾语)。这些信息将用于构建知识图谱(KG),以便在后续步骤中进行知识推理和检索。知识图谱构建:将提取出的三元组信息整合到知识图谱中,形成
- 结构化的知识存储。这样,文本中的信息就被转化为了结构化的知识,便于后续的知识推理和检索。
- 索引构建:对知识图谱中的实体和关系进行索引构建,以便在在线检索阶段能够快速定位到相关信息。
在离线索引阶段,HippoRAG方法充分利用了大型语言模型(LLM)和开放信息抽取(OpenIE)技术的优势,实现了知识的结构化存储和快速检索。同时,通过构建知识图谱,HippoRAG方法还实现了跨文本的知识整合和推理,为在线检索阶段的高效检索提供了有力支持。
3.3、在线检索阶段
在线检索阶段是HippoRAG方法的核心,它主要负责根据用户查询快速准确地检索相关信息。具体来说,该阶段包括以下几个步骤:
- 查询命名实体识别(Query NER) :对用户查询进行命名实体识别,提取出查询中的关键实体信息。这些实体信息将作为后续步骤的检索依据。
- 查询节点检索:利用索引构建阶段得到的知识图谱索引,根据查询中的实体信息在知识图谱中检索相关的节点和关系。这一步骤实现了从用户查询到知识图谱中相关信息的快速映射。
- 个性化页面排名(PPR)算法:对检索到的节点和关系进行排序,以提高检索结果的准确性和相关性。PPR算法通过模拟人类大脑中的信息检索过程,根据节点之间的关联性和重要性对检索结果进行排序。
- 检索结果生成:根据排序后的节点和关系,生成最终的检索结果。这些结果包括与查询相关的文本片段、三元组信息等,便于用户进一步了解和理解相关信息。
- 在线检索阶段,HippoRAG方法充分利用了个性化页面排名(PPR)算法的优势,实现了检索结果的准确排序和高效呈现。同时,通过结合离线索引阶段得到的知识图谱索引和结构化知识存储,HippoRAG方法还实现了跨文本的知识检索和整合,进一步提高了检索结果的准确性和相关性。
四、实验
为了验证HippoRAG方法的有效性和性能,HippoRAG 在两个流行的多跳问答基准数据集 MuSiQue 和 2WikiMultiHopQA 上进行了评估,并与现有的 RAG 方法进行了比较。实验主要包括以下几个方面:
4.1、单-多步骤检索性能实验
将HippoRAG方法与传统的多步骤检索方法(如IRCoT)进行比较,评估其在多步骤检索任务中的性能。实验结果表明,HippoRAG方法在多步骤检索任务中取得了显著的性能提升,尤其是在处理复杂的多步骤检索任务时表现出色。
4.2、问题回答(QA)性能实验
将HippoRAG方法应用于问题回答任务中,评估其在QA任务中的性能。实验结果表明,HippoRAG方法在QA任务中也取得了显著的性能提升,特别是在处理需要跨文本知识整合和推理的问题时表现出色。
4.3、消融实验
五、简单总结
尽管大型语言模型(LLMs)已经取得了显著成就,但即便是结合了检索增强生成(RAG)技术的大型语言模型,在预训练后仍难以高效、有效地整合大量新经验。
基于此,HippoRAG协同整合了大型语言模型、知识图谱和个性化PageRank算法,以模拟人类记忆中新皮层与海马体的不同作用,综合来讲,这是一个有效的 RAG 框架,可以模拟人类大脑中的记忆机制,实现更深入、更高效的知识整合。HippoRAG 在多跳问答任务中表现出色,并具有处理新场景的潜力。
六、一点灵感
- 认知科学与 AI:HippoRAG方法的成功之处在于它结合了神经生物学理论和大型语言模型技术,说不定可以更多地借鉴人类的认知过程和思维方式,以构建更加智能、高效和人性化的系统。
- 长期记忆的模拟:文章中对长期记忆的模拟引发了关于如何在 AI 中实现持久记忆的思考。这对于开发能够进行长期学习、适应和进化的人工智能系统具有重要的启发意义。
- 跨模态:当前HippoRAG方法仍主要关注文本信息,但在实际应用中,用户可能需要检索多种类型的信息,如图片、视频、音频等。因此,未来可以探索将HippoRAG方法扩展到跨模态信息检索领域,实现文本、图像、声音等多种类型信息的统一检索和处理。