Chainlit集成Langchain并使用通义千问AI知识库高级检索(多重查询)网页对话应用教程

前言

之前写过几篇利用Chainlit集成Langchain和国内通义千问大模型集成的知识库检索增加的网页对话应用的技术文章。文章中关于Langchain的知识库检索只是入门级别的教学,本篇文章针对Langchain的知识库高级检索技术和之前对话应用的代码进行完善。
本次主要改进的点

  • 使用自定义提示词,之前使用的是系统默认提示词,全英文的提示词,回答的时候,经常会出现英文,这次使用中文的提示词加国内的大模型,出现英文的回答大大降低,而且还用了中文设置了系统角色的提示词。
  • 使用多查询检索技术,即将用户问题列变成三个相似的问题,分别对知识库进行检索,并将检索结果合并处理给AI。大大提升了知识检索的准确度。

以前的文章:
《Chainlit集成Langchain并使用通义千问和智谱AI实现AI知识库检索网页对话应用》
《使用Chainlit接入通义千问快速实现一个本地文档知识问答机器人》
《使用Chainlit接入通义千问快速实现一个本地文档知识问答机器人增强版》

快速上手

创建一个文件,例如"chainlit_chat"

bash 复制代码
mkdir chainlit_chat

进入 chainlit_chat文件夹下,执行命令创建python 虚拟环境空间(需要提前安装好python sdkChainlit 需要python>=3.8。,具体操作,由于文章长度问题就不在叙述,自行百度),命令如下:

bash 复制代码
python -m venv .venv
  • 这一步是避免python第三方库冲突,省事版可以跳过
  • .venv是创建的虚拟空间文件夹可以自定义

接下来激活你创建虚拟空间,命令如下:

bash 复制代码
#linux or mac
source .venv/bin/activate
#windows
.venv\Scripts\activate

在项目根目录下创建requirements.txt,内容如下:

bash 复制代码
langchain
chainlit
openai
chromadb
tiktoken
pymupdf
langchain_community
dashscope~=1.20.3

执行以下命令安装依赖:

bash 复制代码
pip install -r .\requirements.txt
  • 安装后,项目根目录下会多出.chainlit.files文件夹和chainlit.md文件

只使用通义千问的DashScope模型服务灵积的接口

在项目根目录下创建.env环境变量,配置如下:

bash 复制代码
DASHSCOPE_API_KEY="sk-api_key"
  • DASHSCOPE_API_KEY 是阿里dashscope的服务的APIkey,代码中使用DashScope的sdk实现,所以不需要配置base_url。默认就是阿里的base_url。
  • 阿里模型接口地址 https://dashscope.console.aliyun.com/model

在项目根目录下创建app.py文件,代码如下:

python 复制代码
from pathlib import Path
from typing import List

import chainlit as cl
from langchain.callbacks.base import BaseCallbackHandler
from langchain.prompts import ChatPromptTemplate
from langchain.retrievers import MultiQueryRetriever
from langchain.schema import Document
from langchain.schema import StrOutputParser
from langchain.schema.runnable import RunnablePassthrough, RunnableConfig
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import (
    PyMuPDFLoader, CSVLoader, TextLoader, Docx2txtLoader
)
from langchain_community.embeddings import DashScopeEmbeddings
from langchain_community.llms import Tongyi
from langchain_community.vectorstores import Chroma
from langchain_core.messages import SystemMessage
from langchain_core.prompts import HumanMessagePromptTemplate

chunk_size = 1024
chunk_overlap = 100

FILE_STORAGE_PATH = "data_file"

embeddings_model = DashScopeEmbeddings()


@cl.cache
def process_files(file_storage_path: str):
    file_directory = Path(file_storage_path)
    docs = []  # type: List[Document]
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)

    for file_path in file_directory.glob("*.pdf"):
        loader = PyMuPDFLoader(str(file_path))
        docs += text_splitter.split_documents(loader.load())

    for file_path in file_directory.glob("*.csv"):
        loader = CSVLoader(str(file_path), encoding="UTF-8")
        docs += text_splitter.split_documents(loader.load())

    for file_path in file_directory.glob("*.txt"):
        loader = TextLoader(str(file_path), encoding="UTF-8")
        docs += text_splitter.split_documents(loader.load())

    for file_path in file_directory.glob("*.doc"):
        loader = Docx2txtLoader(str(file_path))
        docs += text_splitter.split_documents(loader.load())

    vector_store = Chroma.from_documents(docs, embeddings_model)

    return vector_store


llm = Tongyi(model='qwen-plus')
doc_search = process_files(FILE_STORAGE_PATH)
retriever = doc_search.as_retriever(search_kwargs={"k": 9})
multi_retriever = MultiQueryRetriever.from_llm(
    retriever=retriever, llm=llm
)



@cl.on_chat_start
async def on_chat_start():
    system_prompt = """
    # 角色
    石家庄医专学校智能客服
    ## 能力
    - 利用用户提供的省份、文理科、分数、位次等信息,比较分数和位次,给出关于本校的报考建议。
    - 解答用户提问关于学校相关问题
    """
    human_template = """Answer the question based only on the following context:
    {context}
    回答要求:
    - 如果你不清楚答案,你需要澄清。
    - 避免提及你是从 <Data></Data> 获取的知识。
    - 保持答案与 <Data></Data> 中描述的一致。
    - 使用 Markdown 语法优化回答格式。
    - 使用与问题相同的语言回答。

    问题: {question}
    """
    prompt = ChatPromptTemplate.from_messages([
        SystemMessage(content=system_prompt),
        HumanMessagePromptTemplate.from_template(human_template)
    ])

    runnable = (
            {"context": multi_retriever, "question": RunnablePassthrough()}
            | prompt
            | llm
            | StrOutputParser()
    )
    cl.user_session.set("runnable", runnable)


@cl.on_message
async def on_message(message: cl.Message):
    runnable = cl.user_session.get("runnable")
    msg = cl.Message(content="")

    class PostMessageHandler(BaseCallbackHandler):
        """
        用于处理检索程序和LLM进程的回调处理程序。
        用于将检索到的文档的源作为Chainlit元素发布。
        """

        def __init__(self, msg: cl.Message):
            BaseCallbackHandler.__init__(self)
            self.msg = msg
            self.sources = []  # To store unique pairs

        def on_retriever_end(self, documents, *, run_id, parent_run_id, **kwargs):
            for d in documents:
                source_page_pair = (d.page_content, d.metadata['row'])
                if source_page_pair not in self.sources:
                    self.sources.append(source_page_pair)

        async def on_llm_end(self, response, *, run_id, parent_run_id, **kwargs):
            if len(self.sources):
                source_names = []
                for page_content, row in self.sources:
                    source_name = f"source_{row}"
                    source_names.append(source_name)
                    self.msg.elements.append(
                        cl.Text(content=page_content, name=source_name, display="side")
                    )
                await self.msg.stream_token(f"\n\n **数据来源**: {', '.join(source_names)}")

    async for chunk in runnable.astream(
            message.content,
            config=RunnableConfig(callbacks=[
                cl.LangchainCallbackHandler(),
                PostMessageHandler(msg)
            ]),
    ):
        await msg.stream_token(chunk)

    await msg.send()

代码解读

这段代码是一个基于Chainlit框架的聊天机器人应用,它利用LangChain库来处理文档检索、文本分割、向量存储以及问答系统。下面是对代码的逐部分解释:

导入必要的库和模块

首先导入了各种库和模块,包括路径操作(pathlib.Path)、类型提示(typing.List)、Chainlit库、LangChain回调处理器、提示模板、多查询检索器、文档模型、文本分割器、文档加载器、嵌入模型、语言模型、矢量数据库、消息模板等。

全局变量定义

定义了一些全局变量,如chunk_size用于控制文档切分后的每个片段大小,chunk_overlap用于控制文档切分后片段间的重叠长度。FILE_STORAGE_PATH指定了文件存储路径。

嵌入模型实例化

创建了一个DashScopeEmbeddings实例,用于将文本转换为向量表示。

文件处理函数

process_files函数用于处理存储路径下的多种类型的文件(如PDF、CSV、TXT、DOC),加载它们的内容,并使用递归字符文本分割器将其切分为更小的文档片段。然后,这些文档片段会被添加到一个Chroma向量数据库中,以便后续进行相似度搜索。

语言模型实例化

创建了一个Tongyi语言模型实例,这里使用的是qwen-plus模型。

文档检索初始化

通过调用process_files函数获取到的向量存储来初始化文档搜索器,并进一步配置多查询检索器以提高检索效果。

Chat Start 事件监听

on_chat_start装饰器下定义了一个异步函数,当聊天开始时会执行该函数。在这个函数中,定义了系统的角色和能力,以及如何根据上下文回答问题的提示模板。接着构建了一个可运行的流程,这个流程包含了从多查询检索器获取上下文、应用提示模板、使用语言模型生成响应以及解析输出结果等功能。

Message 事件监听

on_message装饰器下定义了一个异步函数,当有新消息到达时会执行该函数。此函数根据用户发送的消息内容,使用之前设置好的可运行流程来生成响应,并且在回调处理器的帮助下,还可以展示检索到的数据源。

总的来说,这段代码实现了一个能够根据用户输入的问题,自动从预处理过的文档集合中查找相关信息,并利用语言模型生成符合语境的回答的聊天机器人。

在项目根目录下创建data_file文件夹

将你的文件放到这里,代码中设置的支持,pdf、doc、csv 、txt格式的文件,后续可以根据自己的需求增加更多,langchain带有很多格式文件的加载器,可以自行修改代码。

运行应用程序

要启动 Chainlit 应用程序,请打开终端并导航到包含的目录app.py。然后运行以下命令:

bash 复制代码
 chainlit run app.py -w   
  • -w标志告知 Chainlit 启用自动重新加载,因此您无需在每次更改应用程序时重新启动服务器。您的聊天机器人 UI 现在应该可以通过http://localhost:8000访问。
  • 自定义端口可以追加--port 80

启动后界面如下:

相关文章推荐

《Chainlit快速实现AI对话应用的界面定制化教程》
《Chainlit接入FastGpt接口快速实现自定义用户聊天界面》
《使用 Xinference 部署本地模型》
《Fastgpt接入Whisper本地模型实现语音输入》
《Fastgpt部署和接入使用重排模型bge-reranker》
《Fastgpt部署接入 M3E和chatglm2-m3e文本向量模型》
《Fastgpt 无法启动或启动后无法正常使用的讨论(启动失败、用户未注册等问题这里)》
《vllm推理服务兼容openai服务API》
《vLLM模型推理引擎参数大全》
《解决vllm推理框架内在开启多显卡时报错问题》
《Ollama 在本地快速部署大型语言模型,可进行定制并创建属于您自己的模型》

相关推荐
sp_fyf_202433 分钟前
【大语言模型】ACL2024论文-19 SportsMetrics: 融合文本和数值数据以理解大型语言模型中的信息融合
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理
CoderIsArt36 分钟前
基于 BP 神经网络整定的 PID 控制
人工智能·深度学习·神经网络
编程修仙44 分钟前
Collections工具类
linux·windows·python
开源社1 小时前
一场开源视角的AI会议即将在南京举办
人工智能·开源
FreeIPCC1 小时前
谈一下开源生态对 AI人工智能大模型的促进作用
大数据·人工智能·机器人·开源
芝麻团坚果1 小时前
对subprocess启动的子进程使用VSCode python debugger
linux·ide·python·subprocess·vscode debugger
机器之心1 小时前
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
人工智能·后端
z千鑫1 小时前
【人工智能】PyTorch、TensorFlow 和 Keras 全面解析与对比:深度学习框架的终极指南
人工智能·pytorch·深度学习·aigc·tensorflow·keras·codemoss
EterNity_TiMe_1 小时前
【论文复现】神经网络的公式推导与代码实现
人工智能·python·深度学习·神经网络·数据分析·特征分析
Stara05111 小时前
Git推送+拉去+uwsgi+Nginx服务器部署项目
git·python·mysql·nginx·gitee·github·uwsgi