【LangChain RAG 入门实战:PDF 文档检索问答】

前言

在大模型应用开发中,RAG(检索增强生成) 是最常用、最落地的技术。它可以让 AI 基于你自己的 PDF 文档进行回答,而不是胡编乱造。

本文带你从零实现:

读取本地 PDF 文件

文本分块(切分长文本)

文本向量化(阿里通义 DashScope)

构建 FAISS 本地向量库

文档检索问答

一、环境安装

python 复制代码
pip install langchain langchain-community langchain-text-splitters
pip install pypdf faiss-cpu
pip install dashscope  # 阿里通义 embedding

二、完整可运行代码

python 复制代码
# 1. 导入依赖
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.embeddings import DashScopeEmbeddings
import os

# 2. 加载 PDF 文档
loader = PyPDFLoader("./PDFQA/卢浮宫.pdf")
docs = loader.load()

# 3. 文本分块(关键步骤)
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=100,
    separators=["\n\n", "\n", "。", "!", "?", ",", "、", ""]
)
texts = text_splitter.split_documents(docs)

# 4. 初始化向量模型(阿里通义)
embeddings_model = DashScopeEmbeddings(
    model="text-embedding-v2",
    dashscope_api_key=os.getenv("DASHSCOPE_API_KEY"),
)

# 5. 构建 FAISS 向量库
db = FAISS.from_documents(texts, embeddings_model)

# 6. 创建检索器
retriever = db.as_retriever()

# 7. 开始检索问答
print("===== 问题1:卢浮宫这个名字怎么来的? =====")
retrieved_docs = retriever.invoke("卢浮宫这个名字怎么来的?")
print(retrieved_docs[0].page_content)

print("\n===== 问题2:是否可以使用闪光灯? =====")
retrieved_docs = retriever.invoke("是否可以使用闪光灯")
print(retrieved_docs[0].page_content)

三、代码逐行超详细讲解

  1. 文档加载:读取 PDF
python 复制代码
loader = PyPDFLoader("./PDFQA/卢浮宫.pdf")
docs = loader.load()

使用 PyPDFLoader 加载本地 PDF 文件

返回 Document 列表,一页 = 一个 Document

包含文本内容 page_content 和元信息 metadata

  1. 文本分块:RAG 最核心步骤
python 复制代码
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,        # 每块大小
    chunk_overlap=100,     # 块之间重叠
    separators=["\n\n", "\n", "。", "!", "?", ",", "、", ""]
)
texts = text_splitter.split_documents(docs)

为什么要分块?

  • 大模型有输入长度限制
  • 长文本必须切成小块才能检索
  • 分块越好,检索越准

参数说明:

chunk_size=500:每块 500 字符

chunk_overlap=100:块之间重叠 100 字符,保证语义连贯

separators:按中文标点、换行符智能切分,最适合中文

  1. 向量模型:阿里通义 DashScope
python 复制代码
embeddings_model = DashScopeEmbeddings(
    model="text-embedding-v2",
    dashscope_api_key=os.getenv("DASHSCOPE_API_KEY"),
)

将文本变成向量(数字数组)

向量相似 = 语义相似

国内稳定、速度快、免费额度高

  1. 构建 FAISS 本地向量库
python 复制代码
db = FAISS.from_documents(texts, embeddings_model)

FAISS 是 Meta 开源的高性能本地向量数据库

不需要服务器,直接本地文件运行

速度极快,适合个人项目

  1. 创建检索器
python 复制代码
retriever = db.as_retriever()

把向量库变成可查询的检索器

输入问题 → 返回最相关的文本块

  1. 开始提问(文档检索)
python 复制代码
retrieved_docs = retriever.invoke("卢浮宫这个名字怎么来的?")
print(retrieved_docs[0].page_content)

系统自动在 PDF 里查找最相关的内容

返回结果按相似度从高到低排序

0\] 就是最匹配的答案 四、运行效果示例 ```python ===== 问题1:卢浮宫这个名字怎么来的? ===== 卢浮宫最初是用于防御的城堡,名称来源有两种说法... ===== 问题2:是否可以使用闪光灯? ===== 博物馆内禁止使用闪光灯拍照,以免对文物造成损害... ``` 五、本项目的核心价值 这就是 RAG 的底层核心流程: 加载文档 切分文本 向量化 建库 检索 学会这套流程,你就能做: PDF 智能问答 文档知识库 企业内部问答机器人 小说 / 论文检索工具 六、总结 本文实现了一个轻量、高效、中文友好的 PDF 检索系统: 使用 PyPDFLoader 读取 PDF 使用 RecursiveCharacterTextSplitter 智能分块 使用阿里通义 DashScopeEmbeddings 向量化 使用 FAISS 构建本地向量库 实现精准的文档内容检索 这是大模型应用开发必须掌握的基础技能!

相关推荐
@蔓蔓喜欢你8 小时前
浏览器扩展开发:打造个性化浏览体验
人工智能·ai
海兰8 小时前
【应用实战】基于Dify与多Agent的凭证与档案管理
人工智能
嗝o゚8 小时前
昇腾CANN cann-recipes-infer 仓:LLaMA 推理最佳实践,从模型到服务
人工智能·llama·cann
2601_958815168 小时前
iPhone 17 护眼钢化膜怎么选?悟赫德观复盾护景贴解析
人工智能·科技·智能手机·圆偏振光护眼·观复盾护景贴·护眼钢化膜·iphone17护眼钢化膜
一条泥憨鱼8 小时前
能够让AI做事的“Skill“有什么奥秘
人工智能·ai·agent·rag·skill·mcp
初心未改HD8 小时前
LLM应用开发之模型微调技术详解
人工智能
前端不太难8 小时前
鸿蒙 PC:从“用户点击”到“AI 调度”
人工智能·华为·harmonyos
云和恩墨8 小时前
软件定义效率,硬件夯实基础——云和恩墨与超聚变在郑州正式签署战略合作协议
人工智能
用户32910442250419 小时前
Claude Code 执行业务流程(附上:skills、mcp、tool、funsion_call本质是什么)
人工智能