【LangChain RAG 入门实战:PDF 文档检索问答】

前言

在大模型应用开发中,RAG(检索增强生成) 是最常用、最落地的技术。它可以让 AI 基于你自己的 PDF 文档进行回答,而不是胡编乱造。

本文带你从零实现:

读取本地 PDF 文件

文本分块(切分长文本)

文本向量化(阿里通义 DashScope)

构建 FAISS 本地向量库

文档检索问答

一、环境安装

python 复制代码
pip install langchain langchain-community langchain-text-splitters
pip install pypdf faiss-cpu
pip install dashscope  # 阿里通义 embedding

二、完整可运行代码

python 复制代码
# 1. 导入依赖
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.embeddings import DashScopeEmbeddings
import os

# 2. 加载 PDF 文档
loader = PyPDFLoader("./PDFQA/卢浮宫.pdf")
docs = loader.load()

# 3. 文本分块(关键步骤)
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=100,
    separators=["\n\n", "\n", "。", "!", "?", ",", "、", ""]
)
texts = text_splitter.split_documents(docs)

# 4. 初始化向量模型(阿里通义)
embeddings_model = DashScopeEmbeddings(
    model="text-embedding-v2",
    dashscope_api_key=os.getenv("DASHSCOPE_API_KEY"),
)

# 5. 构建 FAISS 向量库
db = FAISS.from_documents(texts, embeddings_model)

# 6. 创建检索器
retriever = db.as_retriever()

# 7. 开始检索问答
print("===== 问题1:卢浮宫这个名字怎么来的? =====")
retrieved_docs = retriever.invoke("卢浮宫这个名字怎么来的?")
print(retrieved_docs[0].page_content)

print("\n===== 问题2:是否可以使用闪光灯? =====")
retrieved_docs = retriever.invoke("是否可以使用闪光灯")
print(retrieved_docs[0].page_content)

三、代码逐行超详细讲解

  1. 文档加载:读取 PDF
python 复制代码
loader = PyPDFLoader("./PDFQA/卢浮宫.pdf")
docs = loader.load()

使用 PyPDFLoader 加载本地 PDF 文件

返回 Document 列表,一页 = 一个 Document

包含文本内容 page_content 和元信息 metadata

  1. 文本分块:RAG 最核心步骤
python 复制代码
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,        # 每块大小
    chunk_overlap=100,     # 块之间重叠
    separators=["\n\n", "\n", "。", "!", "?", ",", "、", ""]
)
texts = text_splitter.split_documents(docs)

为什么要分块?

  • 大模型有输入长度限制
  • 长文本必须切成小块才能检索
  • 分块越好,检索越准

参数说明:

chunk_size=500:每块 500 字符

chunk_overlap=100:块之间重叠 100 字符,保证语义连贯

separators:按中文标点、换行符智能切分,最适合中文

  1. 向量模型:阿里通义 DashScope
python 复制代码
embeddings_model = DashScopeEmbeddings(
    model="text-embedding-v2",
    dashscope_api_key=os.getenv("DASHSCOPE_API_KEY"),
)

将文本变成向量(数字数组)

向量相似 = 语义相似

国内稳定、速度快、免费额度高

  1. 构建 FAISS 本地向量库
python 复制代码
db = FAISS.from_documents(texts, embeddings_model)

FAISS 是 Meta 开源的高性能本地向量数据库

不需要服务器,直接本地文件运行

速度极快,适合个人项目

  1. 创建检索器
python 复制代码
retriever = db.as_retriever()

把向量库变成可查询的检索器

输入问题 → 返回最相关的文本块

  1. 开始提问(文档检索)
python 复制代码
retrieved_docs = retriever.invoke("卢浮宫这个名字怎么来的?")
print(retrieved_docs[0].page_content)

系统自动在 PDF 里查找最相关的内容

返回结果按相似度从高到低排序

0 就是最匹配的答案

四、运行效果示例

python 复制代码
===== 问题1:卢浮宫这个名字怎么来的? =====
卢浮宫最初是用于防御的城堡,名称来源有两种说法...

===== 问题2:是否可以使用闪光灯? =====
博物馆内禁止使用闪光灯拍照,以免对文物造成损害...

五、本项目的核心价值

这就是 RAG 的底层核心流程:

加载文档

切分文本

向量化

建库

检索

学会这套流程,你就能做:

PDF 智能问答

文档知识库

企业内部问答机器人

小说 / 论文检索工具

六、总结

本文实现了一个轻量、高效、中文友好的 PDF 检索系统:

使用 PyPDFLoader 读取 PDF

使用 RecursiveCharacterTextSplitter 智能分块

使用阿里通义 DashScopeEmbeddings 向量化

使用 FAISS 构建本地向量库

实现精准的文档内容检索

这是大模型应用开发必须掌握的基础技能!

相关推荐
武子康6 分钟前
调查研究-213 UBTech U1:当人形机器人从“听懂指令“走向“情绪陪伴“
人工智能·机器人·agent
xyz_CDragon7 分钟前
OpenAI发布首款自研芯片Jalapeño:9个月流片,AI设计芯片的时代来了
人工智能·单片机·深度学习·神经网络·芯片设计
gooxi_hui14 分钟前
海量存力,智驭未来丨国鑫4U60盘位高密度存储服务器SL401-G4重磅上市
运维·服务器·人工智能
太子釢15 分钟前
Claude Code 工具调用机制详解
人工智能
ksueh22 分钟前
AI写小说接入文心一言教程:千帆API+向量记忆系统实现百万字长篇智能创作
人工智能·ai助手
不焦躁的程序员25 分钟前
程序员该补获客能力了
人工智能·程序员
AI科技星27 分钟前
基于32维Cayley_Dickson超复数的全域拓扑统一场论——反重力、真空自持供能、维度瞬移与星际宇宙脑秩序体系
人工智能·学习·算法·机器学习·数据挖掘
星马梦缘31 分钟前
机器学习与模式识别 第十四章 神经网络中的反向传播 模拟卷及答案
人工智能·神经网络·机器学习·微分·反向传播
吴bug33 分钟前
认识 Open-ACE — AI 编程智能体的工作空间
人工智能·ai·ai编程
ksueh37 分钟前
AI写小说工具哪个好用?9款AI工具使用体验(2026年横评)
人工智能·ai写作