LangChain与Ollama构建本地RAG知识库

文档目录

  • 一、总体说明与介绍

  • 二、为什么使用RAG

    • 优点与使用场景
  • 三、环境搭建

    • 环境依赖与安装步骤
    • 模型安装与启动
  • 四、完整的RAG代码示例

    • 代码实现与说明
  • 五、优化建议

    • 性能优化建议
    • 使用技巧提示

一、总体说明与介绍

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合向量检索和生成式语言模型(LLM)的新型技术。它通过实时从外部知识库中检索相关的知识片段作为上下文,增强模型对问题回答的准确性与实时性,广泛应用于企业内部知识库、智能客服、医疗咨询等领域。

本技术文档将指导您如何使用LangChain框架结合Ollama服务,搭建一个本地运行的高效RAG知识库。

二、为什么使用RAG

优点 说明 推荐使用场景
实时更新 无需频繁重新训练模型即可更新知识库内容 企业内部知识库,实时信息更新场景
提升准确性 减少语言模型"幻觉"现象,提高答案准确性 法律咨询、医疗健康
降低成本 维护知识库成本远低于重新训练大型模型 小型公司内部知识库、客服
数据私密性 数据本地存储和处理,保护隐私安全 企业私有数据处理

三、环境搭建

环境依赖与安装步骤

软件或包名称 安装方式 作用说明
LangChain pip install langchain langchain-community 链式调用AI任务,文档加载
ChromaDB pip install chromadb 本地向量数据库
Ollama 官网安装 本地运行LLM
sentence-transformers pip install sentence-transformers 向量嵌入
文档处理库 pip install pypdf "unstructured[all-docs]" python-docx python-pptx lxml openpyxl 加载多种文档类型,如PDF、Word、Excel等

三、模型安装与启动

操作 命令 说明
启动Ollama ollama serve 启动Ollama本地模型服务
下载DeepSeek模型 ollama pull deepseek-r1:1.5b 下载本地LLM模型用于问答
下载嵌入模型 ollama pull nomic-embed-text:latest 文本转向量的嵌入模型

四、完整的RAG代码示例

以下是完整的Python示例代码,使用LangChain实现基于Ollama的本地RAG知识库。

css 复制代码
import os
from langchain_community.document_loaders import PyPDFLoader, TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain_ollama import OllamaEmbeddings
from langchain.chains import RetrievalQA
from langchain.llms import Ollama

def load_documents(file_paths):
    loaders = []
    for path in file_paths:
        if path.endswith(".pdf"):
            loaders.append(PyPDFLoader(path))
        elif path.endswith(".txt"):
            loaders.append(TextLoader(path))
    docs = []
    for loader in loaders:
        docs.extend(loader.load())
    return docs

# 用户输入多个文件
file_list = []
while True:
    input_path = input("请输入文件路径(输入'q'结束):")
    if inputWord.lower() == 'q':
        break
    file_list.append(input_path)

documents = load_documents(file_list)

# 文档分割与向量存储
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
splits = text_splitter.split_documents(documents)

embeddings = OllamaEmbeddings(model="nomic-embed-text:latest")
db = Chroma.from_documents(splits, embeddings)
retriever = db.as_retriever()

llm = Ollama(model="deepseek-r1:1.5b")
qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)

# 交互式问答
print("知识库已就绪,可以开始提问(输入q退出):")
while True:
    query = input("问题:")
    if query.lower() == "q":
        break
    result = qa_chain.invoke(query)
    print("回答:", result)

五、优化建议

  • 调整 chunk_size(如300~1000字符)提高检索的准确性。
  • 根据应用需求调整检索文档数量 k(默认3-5个)提升答案相关度。
  • 使用量化模型(如DeepSeek量化版)减少内存占用,提高响应速度。

💡

Tips

  • 定期更新知识库文档,确保提供最新信息。
  • 在安全要求较高的环境中,推荐使用本地部署的Ollama模型以确保数据安全
相关推荐
张彦峰ZYF16 分钟前
走出 Demo,走向现实:DeepSeek-VL 的多模态工程路线图
人工智能
Johny_Zhao36 分钟前
Vmware workstation安装部署微软SCCM服务系统
网络·人工智能·python·sql·网络安全·信息安全·微软·云计算·shell·系统运维·sccm
动感光博1 小时前
Unity(URP渲染管线)的后处理、动画制作、虚拟相机(Virtual Camera)
开发语言·人工智能·计算机视觉·unity·c#·游戏引擎
IT古董1 小时前
【漫话机器学习系列】259.神经网络参数的初始化(Initialization Of Neural Network Parameters)
人工智能·神经网络·机器学习
tyatyatya1 小时前
神经网络在MATLAB中是如何实现的?
人工智能·神经网络·matlab
Jackson@ML2 小时前
一分钟了解大语言模型(LLMs)
人工智能·语言模型·自然语言处理
让学习成为一种生活方式2 小时前
大麦(Hordeum vulgare)中 BAHD 超家族酰基转移酶-文献精读129
人工智能
思茂信息2 小时前
CST软件对OPERA&CST软件联合仿真汽车无线充电站对人体的影响
c语言·开发语言·人工智能·matlab·汽车·软件构建
墨绿色的摆渡人2 小时前
pytorch小记(二十):深入解析 PyTorch 的 `torch.randn_like`:原理、参数与实战示例
人工智能·pytorch·python
lqjun08272 小时前
Pytorch实现常用代码笔记
人工智能·pytorch·笔记