RAG（Retrieval-Augmented Generation，检索增强生成）流程

知识文档的准备：首先需要准备知识文档，这些文档可以是多种格式，如Word、TXT、PDF等。使用文档加载器或多模态模型（如OCR技术）将这些文档转换为可理解的纯文本数据。对于长篇文档，还需进行文档切片，以便更高效地处理和检索信息。

嵌入模型：将文本转换为向量形式，以便通过计算向量之间的差异来识别语义上相似的句子。常见的嵌入模型包括Word2Vec、BERT和GPT系列等。

向量数据库：将嵌入后的向量数据存储在向量数据库中，以便进行高效的相似性搜索。

查询检索：当用户提出查询时，系统会将查询通过嵌入模型转换为向量，然后在向量数据库中进行相似性搜索，找到与查询最相关的文档或信息。

生成回答：将检索到的相关信息与用户的查询结合，生成最终的回答。生成模型会利用检索到的信息作为上下文输入，并结合大语言模型来生成文本内容。

这里的嵌入模型用的是本地部署的ollama，也可以使用openai，但是连接不太稳定，还有阿里云的通义千问。

一、知识文档的准备

知识库中存放pdf等类型的文档，准备后面转换为txt文本

二、OCR转换

OCR转换会将PDF、图片这些信息提取得到TXT文本。数据质量的好坏直接影响着后面模型对话效果。因此PDF解析选用的工具必须精确且合适。

在这个例子中，我是事先将PDF用MinerU解析成markdown形式了

三、分词处理

文本分词处理（Tokenization）是自然语言处理（NLP）中的一个重要步骤，其目的是将连续的文本字符串分割成有意义的单元，这些单元通常被称为"词"或"标记"（tokens）。分词处理是文本分析的基础，因为大多数NLP任务都需要在词级别上进行操作，例如文本分类、情感分析、机器翻译等。

中文分词使用了jieba库

jieba 是一个非常流行的 Python 中文分词库，主要用于将中文文本切分成单个词语。它支持多种分词模式，并提供了丰富的功能来满足不同的自然语言处理需求。

主要功能和特点：

分词模式：

精确模式：将文本精确地切分成单个词语，适合用于文本分析。

全模式：将文本中所有可能的词语都扫描出来，速度非常快，但可能存在冗余数据。

搜索引擎模式：在精确模式的基础上，对长词再次进行切分，提高召回率，适合用于搜索引擎分词。

自定义词典：用户可以通过自定义词典来增加新词，以提高分词的准确性。

关键词提取：jieba 提供了基于 TF-IDF 算法的关键词提取功能，可以从文本中提取出最重要的词。

词性标注：通过 jieba.posseg 模块，可以在分词的同时获取词性信息。

并行分词：支持并行分词，以提高分词速度

。

四、创建向量数据库

bash 复制代码

def create_vector_store(tokenized_texts: List[List[str]], embeddings_model: OllamaEmbeddings) -> FAISS:
    """将分词后的文本创建向量库"""
    try:
        # 将分词列表转换回文本
        processed_texts = [' '.join(tokens) for tokens in tokenized_texts]
        
        # 批量处理优化
        batch_size = 100  # 可以根据实际情况调整
        vectors = []

        # # 如果有 GPU
        # if FAISS.get_num_gpus():
        #     res = FAISS.StandardGpuResources()
        #     index = FAISS.index_cpu_to_gpu(res, 0, index)
        
        for i in tqdm(range(0, len(processed_texts), batch_size), desc="创建向量数据库"):
            batch = processed_texts[i:i + batch_size]
            # 批量创建向量
            vector_store = FAISS.from_texts(
                texts=batch,
                embedding=embeddings_model,
                metadatas=[{"index": j} for j in range(i, i + len(batch))]  # 添加元数据以追踪文档
            )
            vectors.append(vector_store)
        
        # 如果有多个批次，合并它们
        if len(vectors) > 1:
            final_vector_store = vectors[0]
            for v in vectors[1:]:
                final_vector_store.merge_from(v)
        else:
            final_vector_store = vectors[0]
        
        # 保存向量库到本地
        final_vector_store.save_local("resume_vectors")
        
        return final_vector_store
    
    except Exception as e:
        print(f"创建向量库时发生错误: {str(e)}")
        raise

五、初始化语言聊天模型

刚刚就是制作了向量数据库，这是大模型的第一步，下面还需要有明确的提示词prompt

1.prompt

2.检索链

检索链（Retrieval Chain）是一种在信息检索和自然语言处理中使用的技术流程，主要用于从大规模数据集中高效地找到与用户查询最相关的信息片段或文档

3.对话

使用一个while循环始终在对话中

完整代码