LlamaIndex 四数据连接器

欢迎来到我的LlamaIndex系列，如果您也和我一样，在搭建RAG应用时，了解到了LlamaIndex, 那就请一起来学习它的各个功能模块和demo实例。 LlamaIndex 一简单文档查询 - 掘金 (juejin.cn)

LlamIndex二 RAG应用开发 - 掘金 (juejin.cn)

LlamaIndex三配置 - 掘金 (juejin.cn)

前言

我们通过各项配置，理解了LlamaIndex在构建知识库和基于知识库的推荐两个阶段，怎么和业务相结合。本文，我们将开始深入理解LlamaIndex的各个模块。首先，LlamaIndex强大的Data Connector 数据连接器上场。

LlamaIndex擅长和各种类型或格式的数据打交道，并通过Document和Nodes的概念，embedding索引后，交给大模型处理，高精度完成AI知识库或AI助理应用开发。利用私有知识库，增强LLM的检索能力，即RAG。

现在，让我们来仔细研究Data Connectors数据连接器模块的细节。

Data Connectors

开始深入之前，我们先来回顾下LlamaIndex构建知识库（Knowledge Base）阶段的架构图。最左侧的Data Sources部分展示了RAG应用中，各种数据来源。RAG应用多是聊天机器人或搜索的产品形式，入口简单，这就需要LlamaIndex具备整合或自然语言处理各种格式，或各种渠道数据的能力。图中列出了Databases 数据库，Documents 文档，APIs 应用接口。假如是大型企业或组织，这是要整多少数据库，横跨多长时间的文档，散落在多少业务中的API?

LangChain作为LLm开发框架，将RAG这块交给LlamaIndex, 正因为它的专业。当我们开始着手RAG应用时，数据加载是非常重要的一个环节，且LlamaIndex给我们安排了那些科技和狠活...

数据连接器接口

为支持不同数据源和格式的数据加载，LlamaIndex准备了一堆数据接口类，让人好生欢迎

Simple Directory Reader
Psychic Reader
DeepLake Reader
Qdrant Reade
Discord Reader
MongoDB Reader
Chroma Reader
MyScale Reader
Faiss Reader
Obsidian Reader
Slack Reader
Web Page Reader
Pinecone Reader
Mbox Reader
MilvusReader
Notion Reader
Github Repo Reader
Google Docs Reader
Database Reader
Twitter Reader
Weaviate Reader

连接demos

连接网页数据

ini 复制代码

from llama_index import download_loader #老版本可以直接import SimpleWebPageReader 现在得这么搞

SimpleWebPageReader = download_loader("SimpleWebPageReader")

loader = SimpleWebPageReader()
documents = loader.load_data(urls=['http://paulgraham.com/worked.html'])

各位，请留意。最新版本的LlamaIndex 基于llamahub来托管，大家可以到Llama Hub来看最新文档。代码中download_loader的意思就是先从llamahub中加载SimpleWebPageReade连接器。

从打印结果我们可以看到，SimpleWebPageReader接口将网页数据以Document的格式保存。

连接Markdown格式文件

ini 复制代码

from pathlib import Path
from llama_index import download_loader

MarkdownReader = download_loader("MarkdownReader")

loader = MarkdownReader()
documents = loader.load_data(file=Path('./README.md'))

使用了MarkdownReader读取了当前目录下的README.md文件

pdf 格式文件

ini 复制代码

from pathlib import Path 
from llama_index import download_loader 
PDFReader = download_loader("PDFReader") 
loader = PDFReader() 
documents = loader.load_data(file=Path('./article.pdf'))

ini 复制代码

import requests
from llama_index import VectorStoreIndex, download_loader
headers = {
}
data = requests.get("https://api.github.com/users/shunwuyu/repos", headers=headers).json()

JsonDataReader = download_loader("JsonDataReader")
loader = JsonDataReader()
documents = loader.load_data(data)
index = VectorStoreIndex.from_documents(documents)
index.query("how many repos are there?")

基于github的api获取了json数据并提问。

综合案例

现在就让我们基于Data Connectors的理解，去开发一个针对langchain文档的知识库RAG应用

安装LlamaIndex

css 复制代码

!pip install -q -U llama-index

设置OPANAI_API_KEY

lua 复制代码

import os 
os.environ['OPENAI_API_KEY'] = 'your valid openai api key'

下载langchain文件并使用数据接口加载

bash 复制代码

!git clone https://github.com/sugarforever/wtf-langchain.git

wft-langchain这个repo，是langchain的开源教程库，里面的文档都是RAG应用的语料来源

ini 复制代码

from llama_index import SimpleDirectoryReader 
reader = SimpleDirectoryReader( input_dir="./wtf-langchain", required_exts=[".md"], recursive=True ) 
docs = reader.load_data() #加载数据到文档数组

我们使用SimpleDirectoryReader, 读取了刚刚克隆下来的wtf-langchain目录下的所有markdown格式的文件。

对文档构建索引，生成知识库, 并初始化查询引擎

ini 复制代码

from llama_index import VectorStoreIndex 
index = VectorStoreIndex.from_documents(docs) 
query_engine = index.as_query_engine() 
response = query_engine.query("什么是WTF LangChain？") 
print(response)

从上图看，我们拿到了准确的答案。

总结

在开发RAG应用时，数据加载是非常重要的一个环节。 Data Connectors 是LlamaIndex的第一个核心模块。
操练一些数据接口，开始干活。

LlamaIndex 四 数据连接器

前言

Data Connectors

数据连接器接口

连接demos

综合案例

总结

参考资料

LlamaIndex 四数据连接器