【RAG实战】中医医疗问答系统

一、基本情况

1.1 模型、数据库选择

这里的推理模型选择了基于ollama本地部署的deepseek-r1:32b模型，在推理和文本生成能力上已经能够满足我们这次任务的需求。嵌入模型选择了bge-large-zh-v1.5模型，该系列模型常被用于作为中文文本语料的向量嵌入模型使用。

数据库选择了轻量级易用的向量数据库Chroma，它与python生态深度集成，适合中小型项目的部署。

1.2 知识库数据集介绍

这里的知识库数据集来自于网络上搜集的五个文件，可以看到均为pdf格式文件。

二、代码展示

2.1 knowledge_embedding.py

在这一部分主要流程就是读取pdf格式文件并转换为文档形式、将每个文档按照固定大小的chunk进行划分（有点类似于滑动窗口）、对每个chunk的文本生成嵌入向量及其对应的元数据、保存向量数据库。在构建向量数据库时可以做一些处理来增强后续检索的准确率，比如说在对所有文档进行chunk划分后，对于每一个chunk可以生成一段摘要和一系列使用者可能回根据这个chunk内容提出的问题，将这两部分内容分别存储在一个集合中，它们通过每个chunk的唯一标识id进行连接。还有就是可以调整chunk大小让其划分更加细致化即每段包含的内容更加精细，不过这样会增加计算和存储成本。在构建数据库时添加合适的元数据，可以使得模型推理的答案更加具有可解释性，比如回答完成后返回答案参考了那几篇文档的第几页，方便我们验证溯源。

复制代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import os
import argparse
from typing import List
from langchain_community.document_loaders import DirectoryLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
from langchain.schema import Document
import uuid
from tqdm import tqdm

# ------------ 配置参数 -----------
# PDF文档路径
DOCUMENT_PATH = r"D:\APP\Pycharm\LLM_RAG\my_knowledge\医疗问答系统"
# Chroma数据库路径
CHROMA_DB_PATH = r"D:\APP\Pycharm\LLM_RAG\chroma_db\medical"
# 嵌入模型
EMBEDDING_MODEL = "BAAI/bge-large-zh-v1.5"


class MedicalKnowledgeBuilder:
    """
    医疗知识库构建器
    """

    def __init__(self, document_path: str, chroma_db_path: str):
        """
        初始化

        Args:
            document_path: PDF文档路径
            chroma_db_path: Chroma数据库存储路径
        """
        self.document_path = document_path
        self.chroma_db_path = chroma_db_path

        # 初始化嵌入模型
        print(f"加载嵌入模型: {EMBEDDING_MODEL}")
        self.embeddings = HuggingFaceEmbeddings(
            model_name=EMBEDDING_MODEL,
            model_kwargs={'device': 'cpu'},  # 或 'cuda' 如果有GPU
            encode_kwargs={'normalize_embeddings': True}
        )

    def load_pdf_documents(self, batch_size: int = 5):
        """
        加载PDF文档

        Args:
            batch_size: 批量处理大小

        Returns:
            List[Document]: 加载后的文档列表
        """
        print(f"从 {self.document_path} 加载PDF文档...")

        documents = []
        pdf_files = []

        # 收集所有PDF文件
        for root, _, files in os.walk(self.document_path):
            for file in files:
                if file.lower().endswith('.pdf'):
                    pdf_files.append(os.path.join(root, file))

        print(f"找到 {len(pdf_files)} 个PDF文件")

        # 分批处理，避免内存溢出
        for i in tqdm(range(0, len(pdf_files), batch_size), desc="加载PDF文件"):
            batch_files = pdf_files[i:i + batch_size]

            for pdf_file in batch_files:
                try:
                    print(f"处理文件: {os.path.basename(pdf_file)}")

                    # 加载PDF文档
                    loader = PyPDFLoader(pdf_file)
                    docs = loader.load()

                    # 为每个文档添加基础元数据
                    for j, doc in enumerate(docs):
                        doc.metadata.update({
                            "source": pdf_file,
                            "file_name": os.path.basename(pdf_file),
                            "page": j + 1,
                            "doc_id": str(uuid.uuid4()),
                        })

                    documents.extend(docs)
                    print(f"  已加载: {os.path.basename(pdf_file)} - {len(docs)}页")

                except Exception as e:
                    print(f"加载文件 {pdf_file} 时出错: {str(e)}")
                    continue

        print(f"成功加载 {len(documents)} 个文档页面")
        return documents

    def split_documents(self, documents: List[Document], chunk_size: int = 800, chunk_overlap: int = 150):
        """
        分割文档为块，优化中文医疗文本处理

        Args:
            documents: 文档列表
            chunk_size: 块大小
            chunk_overlap: 块重叠大小

        Returns:
            List[Document]: 分割后的文档块
        """
        print(f"分割文档，块大小: {chunk_size}, 重叠: {chunk_overlap}")

        # 创建针对中文医疗文本的文本分割器
        text_splitter = RecursiveCharacterTextSplitter(
            chunk_size=chunk_size,
            chunk_overlap=chunk_overlap,
            length_function=len,
            separators=["\n\n", "\n", "。", "！", "？", "；", "，", "、", " ", ""],
            keep_separator=True
        )

        # 分割文档
        chunks = text_splitter.split_documents(documents)
        print(f"文档分割完成，共 {len(chunks)} 个块")

        return chunks

    def add_chunk_metadata(self, chunks: List[Document]):
        """
        为文档块添加基础元数据

        Args:
            chunks: 文档块列表

        Returns:
            List[Document]: 添加元数据后的文档块
        """
        print("为文档块添加元数据...")

        for i, chunk in enumerate(chunks):
            # 添加块ID
            chunk.metadata["chunk_id"] = str(uuid.uuid4())

            # 添加块索引
            chunk.metadata["chunk_index"] = i

            # 添加字符数
            chunk.metadata["char_count"] = len(chunk.page_content)

        print(f"元数据添加完成，共处理 {len(chunks)} 个块")
        return chunks

    def create_vector_store(self, chunks: List[Document], collection_name: str = "medical_knowledge"):
        """
        创建Chroma向量存储

        Args:
            chunks: 文档块列表
            collection_name: 集合名称

        Returns:
            Chroma: 向量存储对象
        """
        print(f"\n创建Chroma向量存储，集合: {collection_name}")

        # 确保数据库目录存在
        os.makedirs(self.chroma_db_path, exist_ok=True)

        # 创建向量存储
        vector_store = Chroma.from_documents(
            documents=chunks,
            embedding=self.embeddings,
            persist_directory=self.chroma_db_path,
            collection_name=collection_name,
            collection_metadata={
                "hnsw:space": "cosine",
                "description": "中医医疗知识库",
                "total_chunks": len(chunks)
            }
        )

        # 持久化
        vector_store.persist()

        # 打印统计信息
        self.print_statistics(chunks)

        return vector_store

    def print_statistics(self, chunks: List[Document]):
        """
        打印文档统计信息

        Args:
            chunks: 文档块列表
        """
        print(f"向量存储创建完成，保存到: {self.chroma_db_path}")
        print(f"向量存储信息:")
        print(f"  - 文档块数量: {len(chunks)}")
        print(f"  - 集合名称: medical_knowledge")
        print(f"  - 嵌入维度: {self.embeddings.client.encode('测试').shape[0]}")

        # 计算平均块大小
        if chunks:
            avg_chunk_size = sum(len(c.page_content) for c in chunks) / len(chunks)
            print(f"  - 平均块大小: {avg_chunk_size:.0f} 字符")

            # 文件来源统计
            sources = {}
            for chunk in chunks:
                source = chunk.metadata.get("source", "未知")
                if source not in sources:
                    sources[source] = 0
                sources[source] += 1

            print(f"  - 来源文件数: {len(sources)}")

    def build_knowledge_base(self):
        """
        构建完整的医疗知识库
        """
        print("=" * 60)
        print("开始构建医疗知识库 - 极简版")
        print("=" * 60)

        # 1. 加载PDF文档
        print("\n步骤1: 加载PDF文档")
        documents = self.load_pdf_documents(batch_size=3)
        if not documents:
            print("未找到PDF文档，程序退出")
            return

        # 2. 分割文档
        print("\n步骤2: 分割文档")
        chunks = self.split_documents(documents)

        # 3. 添加元数据
        print("\n步骤3: 添加元数据")
        chunks = self.add_chunk_metadata(chunks)

        # 4. 创建向量存储
        print("\n步骤4: 创建向量存储")
        vector_store = self.create_vector_store(chunks)

        print("\n" + "=" * 60)
        print("医疗知识库构建完成！")
        print("=" * 60)

        return vector_store


def main():
    parser = argparse.ArgumentParser(description="医疗知识库构建工具 - 极简版")
    parser.add_argument("--doc_path", type=str, default=DOCUMENT_PATH,
                        help="PDF文档路径")
    parser.add_argument("--db_path", type=str, default=CHROMA_DB_PATH,
                        help="Chroma数据库存储路径")
    parser.add_argument("--chunk_size", type=int, default=500,
                        help="文档块大小")
    parser.add_argument("--chunk_overlap", type=int, default=100,
                        help="文档块重叠大小")
    parser.add_argument("--batch_size", type=int, default=4,
                        help="批量处理大小")

    args = parser.parse_args()

    # 构建医疗知识库
    builder = MedicalKnowledgeBuilder(
        document_path=args.doc_path,
        chroma_db_path=args.db_path
    )

    builder.build_knowledge_base()


if __name__ == '__main__':
    main()

2.2 knowledge_retrieve.py

这一部分主要是进行检索-增强环节了，主要就是定义了一个语义相似度检索器和大模型推理的提示词。