【LangChain RAG 入门实战:PDF 文档检索问答】

前言

在大模型应用开发中,RAG(检索增强生成) 是最常用、最落地的技术。它可以让 AI 基于你自己的 PDF 文档进行回答,而不是胡编乱造。

本文带你从零实现:

读取本地 PDF 文件

文本分块(切分长文本)

文本向量化(阿里通义 DashScope)

构建 FAISS 本地向量库

文档检索问答

一、环境安装

python 复制代码
pip install langchain langchain-community langchain-text-splitters
pip install pypdf faiss-cpu
pip install dashscope  # 阿里通义 embedding

二、完整可运行代码

python 复制代码
# 1. 导入依赖
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.embeddings import DashScopeEmbeddings
import os

# 2. 加载 PDF 文档
loader = PyPDFLoader("./PDFQA/卢浮宫.pdf")
docs = loader.load()

# 3. 文本分块(关键步骤)
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=100,
    separators=["\n\n", "\n", "。", "!", "?", ",", "、", ""]
)
texts = text_splitter.split_documents(docs)

# 4. 初始化向量模型(阿里通义)
embeddings_model = DashScopeEmbeddings(
    model="text-embedding-v2",
    dashscope_api_key=os.getenv("DASHSCOPE_API_KEY"),
)

# 5. 构建 FAISS 向量库
db = FAISS.from_documents(texts, embeddings_model)

# 6. 创建检索器
retriever = db.as_retriever()

# 7. 开始检索问答
print("===== 问题1:卢浮宫这个名字怎么来的? =====")
retrieved_docs = retriever.invoke("卢浮宫这个名字怎么来的?")
print(retrieved_docs[0].page_content)

print("\n===== 问题2:是否可以使用闪光灯? =====")
retrieved_docs = retriever.invoke("是否可以使用闪光灯")
print(retrieved_docs[0].page_content)

三、代码逐行超详细讲解

  1. 文档加载:读取 PDF
python 复制代码
loader = PyPDFLoader("./PDFQA/卢浮宫.pdf")
docs = loader.load()

使用 PyPDFLoader 加载本地 PDF 文件

返回 Document 列表,一页 = 一个 Document

包含文本内容 page_content 和元信息 metadata

  1. 文本分块:RAG 最核心步骤
python 复制代码
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,        # 每块大小
    chunk_overlap=100,     # 块之间重叠
    separators=["\n\n", "\n", "。", "!", "?", ",", "、", ""]
)
texts = text_splitter.split_documents(docs)

为什么要分块?

  • 大模型有输入长度限制
  • 长文本必须切成小块才能检索
  • 分块越好,检索越准

参数说明:

chunk_size=500:每块 500 字符

chunk_overlap=100:块之间重叠 100 字符,保证语义连贯

separators:按中文标点、换行符智能切分,最适合中文

  1. 向量模型:阿里通义 DashScope
python 复制代码
embeddings_model = DashScopeEmbeddings(
    model="text-embedding-v2",
    dashscope_api_key=os.getenv("DASHSCOPE_API_KEY"),
)

将文本变成向量(数字数组)

向量相似 = 语义相似

国内稳定、速度快、免费额度高

  1. 构建 FAISS 本地向量库
python 复制代码
db = FAISS.from_documents(texts, embeddings_model)

FAISS 是 Meta 开源的高性能本地向量数据库

不需要服务器,直接本地文件运行

速度极快,适合个人项目

  1. 创建检索器
python 复制代码
retriever = db.as_retriever()

把向量库变成可查询的检索器

输入问题 → 返回最相关的文本块

  1. 开始提问(文档检索)
python 复制代码
retrieved_docs = retriever.invoke("卢浮宫这个名字怎么来的?")
print(retrieved_docs[0].page_content)

系统自动在 PDF 里查找最相关的内容

返回结果按相似度从高到低排序

0 就是最匹配的答案

四、运行效果示例

python 复制代码
===== 问题1:卢浮宫这个名字怎么来的? =====
卢浮宫最初是用于防御的城堡,名称来源有两种说法...

===== 问题2:是否可以使用闪光灯? =====
博物馆内禁止使用闪光灯拍照,以免对文物造成损害...

五、本项目的核心价值

这就是 RAG 的底层核心流程:

加载文档

切分文本

向量化

建库

检索

学会这套流程,你就能做:

PDF 智能问答

文档知识库

企业内部问答机器人

小说 / 论文检索工具

六、总结

本文实现了一个轻量、高效、中文友好的 PDF 检索系统:

使用 PyPDFLoader 读取 PDF

使用 RecursiveCharacterTextSplitter 智能分块

使用阿里通义 DashScopeEmbeddings 向量化

使用 FAISS 构建本地向量库

实现精准的文档内容检索

这是大模型应用开发必须掌握的基础技能!

相关推荐
道可云1 分钟前
道可云人工智能&OPC每日资讯|工信部发布《“人工智能+信息通信”创新发展实施意见(2026—2028年)》
人工智能
邵宇然9 分钟前
PB 级分布式存储实战:从数据分片到跨区域复制的 Rust 工程实现
人工智能
tedcloud12319 分钟前
taste-skill部署教程:打造个性化AI推荐工作流
服务器·前端·人工智能·系统架构·edge
碳基硅坊26 分钟前
把本地入口接上远端算力:读懂 LM Studio 的 LM Link
人工智能·lm studio·lm link
莱歌数字36 分钟前
换热器计算方法与步骤:从热平衡到性能校核
人工智能·科技·制造·cae·散热
小鹿研究点东西43 分钟前
AI直播工具实操:从直播录制、AI剪辑去重到直播伴侣开播完整流程
人工智能·自动化·音视频·语音识别
碳基硅坊1 小时前
Spring AI:把大模型接进 Spring 应用
java·人工智能·spring ai
才兄说1 小时前
机器人二次开发机器狗巡检?全环境稳定感知
人工智能·机器人
一一哥Sun1 小时前
第06课:Transformer与注意力机制——大模型背后的秘密武器
人工智能·深度学习·transformer
landyjzlai1 小时前
蓝迪哥玩转Ai(10)---Harness工程说透1。
人工智能·harness