helloworld入门【从0到1,LangChain+RAG全链路实战AI知识库】

LangChain + RAG 全链路实战 AI 知识库

从环境搭建到 Prompt 工程,覆盖开发全流程,附可运行代码


一、为什么要自己做 RAG 知识库?

痛点 RAG 带来的收益
大模型「幻觉」严重 用检索结果约束生成,事实性↑
私有数据无法直接微调 无需重训模型,实时外挂知识
上下文长度有限 只给模型最相关的 Top-K 片段
迭代周期长 增删改文档即可,分钟级上线

二、整体架构(5 步闭环)

复制代码
┌────────────┐     ┌──────────────┐     ┌──────────┐     ┌──────────┐     ┌────────┐
│  文档加载   │ ──► │  分块 & 向量化 │ ──► │  Chroma  │ ──► │  检索器   │ ──► │  生成器  │
└────────────┘     └──────────────┘     └──────────┘     └──────────┘     └────────┘

技术选型:

  • LangChain 0.3+(链式编排)
  • Chroma 轻量级本地向量库
  • OpenAI Embedding & GPT-3.5-turbo(可换开源模型)
  • Python 3.10+

三、开发环境一键准备

bash 复制代码
# 1. 创建虚拟环境
python -m venv rag-env
source rag-env/bin/activate      # Windows 用 rag-env\Scripts\activate

# 2. 安装依赖
pip install -U langchain langchain-community langchain-openai langchain-chroma chromadb openai tiktoken pypdf

# 3. 放私密 KEY
export OPENAI_API_KEY="sk-xxxxxxxx"   # Windows 用 set

四、完整代码(单文件即可跑)

文件:rag_bot.py

python 复制代码
import os, sys, time
from pathlib import Path

from langchain.document_loaders import PyPDFLoader, TextLoader, DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_chroma import Chroma
from langchain.chains import RetrievalQA
from langchain.prompts import ChatPromptTemplate
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser

#################### 1. 参数区 ####################
DATA_PATH = "./data"               # 放 PDF/TXT 的文件夹
PERSIST_DIR = "./chroma_db"        # 向量库落盘位置
CHUNK_SIZE = 800
CHUNK_OVERLAP = 150
TOP_K = 4
MODEL_NAME = "gpt-3.5-turbo"
##################################################

#################### 2. 文档加载 ####################
def load_docs(path: str):
    loaders = {
        ".pdf": DirectoryLoader(path, glob="**/*.pdf", loader_cls=PyPDFLoader),
        ".txt": DirectoryLoader(path, glob="**/*.txt", loader_cls=TextLoader),
    }
    docs = []
    for ext, loader in loaders.items():
        if any(f.suffix == ext for f in Path(path).rglob(f"*{ext}")):
            docs += loader.load()
    if not docs:
        print("❌ 未找到任何文档,程序结束"); sys.exit()
    print(f"📄 共加载 {len(docs)} 个文档")
    return docs

#################### 3. 分块 ####################
def split_docs(docs):
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=CHUNK_SIZE,
        chunk_overlap=CHUNK_OVERLAP,
        separators=["\n\n", "\n", "。", "!", "?", " ", ""]
    )
    chunks = splitter.split_documents(docs)
    print(f"🪓 得到 {len(chunks)} 个文本块")
    return chunks

#################### 4. 向量化+入库 ####################
def build_vectorstore(chunks):
    embedding = OpenAIEmbeddings(model="text-embedding-3-small")
    if os.path.exists(PERSIST_DIR):
        print("🔄 发现已有向量库,直接加载...")
        return Chroma(persist_directory=PERSIST_DIR, embedding_function=embedding)
    print("⏳ 首次构建向量库,需要几分钟...")
    vectordb = Chroma.from_documents(
        documents=chunks,
        embedding=embedding,
        persist_directory=PERSIST_DIR
    )
    vectordb.persist()
    return vectordb

#################### 5. Prompt 工程 ####################
SYSTEM_TMPL = """You are an assistant for question-answering tasks.
Use the following pieces of retrieved context to answer the question.
If you don't know the answer, just say that you don't know.
Use three sentences maximum and keep the answer concise.
Context: {context}
"""
prompt = ChatPromptTemplate.from_messages([
    ("system", SYSTEM_TMPL),
    ("human", "{question}")
])

#################### 6. 链式 RAG ####################
def build_chain(vectordb):
    retriever = vectordb.as_retriever(search_kwargs={"k": TOP_K})
    llm = ChatOpenAI(model_name=MODEL_NAME, temperature=0)
    chain = (
        {"context": retriever | (lambda docs: "\n\n".join(d.page_content for d in docs)), 
         "question": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )
    return chain

#################### 7. 交互 ####################
def chat(chain):
    print("✅ 知识库已就绪,输入问题(输入 exit 退出):")
    while True:
        q = input("\n👤 > ").strip()
        if q.lower() == "exit":
            break
        t0 = time.time()
        ans = chain.invoke(q)
        print(f"🤖 < {ans}  (cost {time.time()-t0:.2f}s)")

#################### 8. 主入口 ####################
if __name__ == "__main__":
    docs = load_docs(DATA_PATH)
    chunks = split_docs(docs)
    db = build_vectorstore(chunks)
    rag_chain = build_chain(db)
    chat(rag_chain)

五、运行演示

bash 复制代码
# 1. 把 PDF/TXT 放进 data 文件夹
mkdir data && cp xxx.pdf data/

# 2. 首次运行会构建向量库(后续秒启动)
python rag_bot.py

# 3. 交互示例
👤 > 公司年假天数规定?
🤖 < 根据员工手册,入职满 1 年享 5 天年假,满 10 年 10 天。详情见 HR-2025-001 号文件。

六、Prompt 工程调优清单

技巧 示例 效果
角色扮演 You are a legal advisor... 领域术语↑
强制引用 Answer with "Source: <doc_name>" 可追溯
拒绝幻觉 If the context lacks info, say "I don't know" 幻觉↓
格式限定 Return JSON {"answer": "...", "confidence": 0.8} 方便下游解析
多语言 Answer in the same language as the question 中文问答自动适配

七、常见坑 & 解决方案

  1. Chroma 锁库

    退出程序前先 vectordb.persist(),且只保留一个进程占用。

  2. 块太小丢上下文

    RecursiveCharacterTextSplitter 并保留 10--20 % 重叠。

  3. Top-K 过大导致超限

    gpt-3.5-turbo 4k 上下文,K=4×800≈3200 token,留 800 token 给 Prompt 与生成。

  4. Windows 终端中文乱码
    chcp 65001 并升级 Powershell 7。


八、进阶路线

  • ensemble_retriever 做混合检索(BM25 + 向量)。
  • 接入 ReRank 模型(bge-reranker)精排 Top-K。
  • 把 Chroma 换成 Milvus / Pinecone 支撑亿级向量。
  • 引入 Agent,对多知识库自动路由。
  • LlamaIndex + LangChain 双框架互补,支持图谱 & 结构化数据。

完整源码已开源在 GitHub,欢迎 Star / PR:
github.com/yourname/la...

把代码拖下来,5 分钟你就能拥有一个可交互的私有 AI 知识库!

相关推荐
马尚来6 小时前
从0到1,LangChain+RAG全链路实战AI知识库
langchain
叼菠萝12 小时前
AI 应用开发三剑客系列:LangChain 如何撑起 LLM 应用开发基石?
python·langchain
MichaelIp13 小时前
基于MCP协议的多AGENT文章自动编写系统
语言模型·langchain·prompt·ai写作·llamaindex·langgraph·mcp
玲小珑13 小时前
LangChain.js 完全开发手册(十六)实战综合项目二:AI 驱动的代码助手
前端·langchain·ai编程
viperrrrrrrrrr71 天前
Agent向量存储中的记忆衰退与记忆过载解决方案
langchain·大模型·agent·rag
爱喝白开水a2 天前
LangChain 基础系列之 Prompt 工程详解:从设计原理到实战模板_langchain prompt
开发语言·数据库·人工智能·python·langchain·prompt·知识图谱
cooldream20092 天前
LangChain PromptTemplate 全解析:从模板化提示到智能链构
langchain·prompt·prompttemplate
serve the people2 天前
LangChain 表达式语言核心组合:Prompt + LLM + OutputParser
java·langchain·prompt
大模型真好玩2 天前
LangGraph实战项目:从零手搓DeepResearch(二)——DeepResearch架构设计与实现
人工智能·python·langchain