革命性RAG系统 LightRAG：实现快速适应新数据的智能检索

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

微信公众号｜搜一搜：蚝油菜花

🚀 快速阅读

LightRAG 是一种基于图结构索引和双层检索机制的检索增强生成系统，旨在提升大型语言模型在信息检索中的准确性和效率。
系统能捕捉实体间的复杂依赖关系，全面理解信息，处理具体和抽象查询，确保用户获得既相关又丰富的响应。
LightRAG 具备快速适应新数据的能力，在动态环境中保持高效和准确，基于增量更新算法及时整合新数据，无需重建整个知识库。

正文（附运行示例）

LightRAG 是什么

LightRAG 是由香港大学研究团队开发的一种检索增强生成（Retrieval-Augmented Generation, RAG）系统。简单来说，这个系统通过结合图结构索引和双层检索机制，大大提高了大型语言模型在信息检索方面的准确性和效率。LightRAG 能很好地捕捉实体之间的复杂关系，全面理解信息，无论是具体还是抽象的查询都能处理，确保用户得到既相关又丰富的回答。此外，LightRAG 还能快速适应新数据，在动态环境中保持高效和准确，通过增量更新算法及时整合新数据，而无需重建整个知识库。

LightRAG 的主要功能

增强信息检索： LightRAG 能结合外部知识源，提升大型语言模型在信息检索中的准确性和相关性。
处理复杂查询： 系统能理解和处理涉及多个实体和复杂关系的查询。
生成准确回答： 基于检索到的信息，生成与用户查询紧密相关的详细回答。
适应动态数据： 快速整合新数据，确保系统在信息频繁更新的环境中保持准确性和时效性。
提高检索效率： 通过优化的检索机制，减少检索时间和计算资源消耗。

LightRAG 的技术原理

图结构索引： 使用图结构来索引文本数据，节点代表实体，边代表实体间的关系，这样可以更好地捕捉和表示复杂的依赖关系。
双层检索系统： 结合低层次（具体实体和属性）和高层次（广泛主题和概念）的检索策略，满足不同类型的查询需求。
增量更新算法： 当新数据到来时，系统会增量式地更新知识图谱，无需从头开始重建，提高了数据处理的效率。
实体和关系提取： 利用大型语言模型识别文本中的实体和关系，生成键值对，优化检索过程。

如何运行 LightRAG

安装

从源代码安装

bash 复制代码

cd LightRAG
pip install -e .

从 PyPI 安装

bash 复制代码

pip install lightrag-hku

快速开始

设置 OpenAI API 密钥在环境变量中：export OPENAI_API_KEY="sk-...".
下载示例文本 "A Christmas Carol by Charles Dickens"

bash 复制代码

curl https://raw.githubusercontent.com/gusye1234/nano-graphrag/main/tests/mock_data.txt > ./book.txt

使用以下 Python 代码片段：

python 复制代码

from lightrag import LightRAG, QueryParam

rag = LightRAG(working_dir="./dickens")

with open("./book.txt") as f:
    rag.insert(f.read())

# 执行朴素搜索
print(rag.query("What are the top themes in this story?", param=QueryParam(mode="naive")))

# 执行本地搜索
print(rag.query("What are the top themes in this story?", param=QueryParam(mode="local")))

# 执行全局搜索
print(rag.query("What are the top themes in this story?", param=QueryParam(mode="global")))

# 执行混合搜索
print(rag.query("What are the top themes in this story?", param=QueryParam(mode="hybird")))

四种搜索方式之间的区别

搜索方式	描述	适用场景
朴素搜索 (Naive)	直接根据查询关键词进行搜索，不考虑实体间的关系。	适用于简单、直接的查询，不需要深入理解实体间的关系。
本地搜索 (Local)	在实体及其直接相邻的实体之间进行搜索，考虑实体间的基本关系。	适用于需要理解实体间直接关系的查询，但不需要全局视角。
全局搜索 (Global)	在整个知识图谱中进行搜索，考虑实体间的全局关系。	适用于需要全局视角，理解实体间复杂关系的查询。
混合搜索 (Hybird)	结合本地搜索和全局搜索的优点，既考虑实体间的直接关系，也考虑全局关系。	适用于需要全面理解实体间关系的查询，适用于大多数场景。

批量插入

python 复制代码

rag.insert(["TEXT1", "TEXT2",...])

增量插入

python 复制代码

rag = LightRAG(working_dir="./dickens")

with open("./newText.txt") as f:
    rag.insert(f.read())

资源

项目官网：lightrag.github.io/?utm_source...
GitHub 仓库：github.com/HKUDS/Light...
arXiv 技术论文：arxiv.org/pdf/2410.05...

微信公众号｜搜一搜：蚝油菜花