Langchain-chatchat系列一： Langchain基本概念

一、Langchain的chain是指的是什么？

langchain字面意思是长长的链子，那么chains 链子具体指的是什么呢？

智普AI助手的回答如下：

LangChain 中的 "chain" 是指链式操作或者序列化操作，它是一种将多个任务或操作按照一定的顺序组合起来，以实现特定目标的方法。在 LangChain 框架中，这个概念主要用于描述一系列基于大型语言模型（LLM）的应用程序。

链式操作通常包括以下几个步骤：

用户向语言模型提出问题。
将问题转换为向量表示，并在向量数据库中进行相似性搜索。
从向量数据库中获取相关信息。
将相关信息馈送到语言模型以生成答案或采取行动。

通过将这些操作组合成链式结构，LangChain 允许开发人员灵活地构建各种由 LLM 驱动的应用程序。这种链式结构使得开发者可以轻松地定制和扩展应用程序的功能，同时保持代码的可读性和可维护性。

简单来说，Langchain就是将LLM串联起来进行的一系列链式操作， 对于简单的应用来说，孤立地使用LLM是没有问题的，但更复杂的应用需要将LLM串联起来--要么相互串联，要么与其他组件串联。

LangChain为这种 "链式 "应用提供了Chain接口。我们非常笼统地将链定义为对组件的调用序列，其中可以包括其他链。基本接口很简单：

python 复制代码

class Chain(BaseModel, ABC):
    """Base interface that all chains should implement."""

    memory: BaseMemory
    callbacks: Callbacks

    def __call__(
        self,
        inputs: Any,
        return_only_outputs: bool = False,
        callbacks: Callbacks = None,
    ) -> Dict[str, Any]:
        ...

如何使用不同的链功能的演练：python.langchain.com/docs/module...
熟悉核心构件链的基础知识：python.langchain.com/docs/module...
文档，了解如何将文档纳入链中：python.langchain.com/docs/module...
最受欢迎的链，用于最常见的用例：python.langchain.com/docs/module...
额外的，可以看到一些更高级的链和集成，你可以使用开箱即用的链。:python.langchain.com/do

为什么我们需要链：

链允许我们将多个组件结合在一起，创建一个单一的、连贯的应用程序。例如，我们可以创建一个链，接受用户输入，用PromptTemplate格式化，然后将格式化的响应传递给LLM。我们可以通过将多个链组合在一起，或将链与其他组件组合在一起，建立更复杂的链。

看一个简单使用的例子：

LLMChain是最基本的构建块链。它接受一个提示模板，用用户输入的格式化它，并从LLM返回响应。

要使用LLMChain，首先要创建一个提示模板。

ini 复制代码

from langchain.llms import OpenAI
from langchain.prompts import PromptTemplate

llm = OpenAI(temperature=0.9)
prompt = PromptTemplate(
    input_variables=["product"],
    template="What is a good name for a company that makes {product}?",
)

我们现在可以创建一个非常简单的链，它将接受用户的输入，用它来格式化提示，然后将其发送到LLM。

python 复制代码

from langchain.chains import LLMChain
chain = LLMChain(llm=llm, prompt=prompt)

# Run the chain only specifying the input variable.
print(chain.run("colorful socks"))

    Colorful Toes Co.

如果有多个变量，你可以用一个字典一次输入它们。

ini 复制代码

prompt = PromptTemplate(
    input_variables=["company", "product"],
    template="What is a good name for {company} that makes {product}?",
)
chain = LLMChain(llm=llm, prompt=prompt)
print(chain.run({
    'company': "ABC Startup",
    'product': "colorful socks"
    }))

    Socktopia Colourful Creations.

你也可以在LLMChain中使用一个聊天模型：

ini 复制代码

from langchain.chat_models import ChatOpenAI
from langchain.prompts.chat import (
    ChatPromptTemplate,
    HumanMessagePromptTemplate,
)
human_message_prompt = HumanMessagePromptTemplate(
        prompt=PromptTemplate(
            template="What is a good name for a company that makes {product}?",
            input_variables=["product"],
        )
    )
chat_prompt_template = ChatPromptTemplate.from_messages([human_message_prompt])
chat = ChatOpenAI(temperature=0.9)
chain = LLMChain(llm=chat, prompt=chat_prompt_template)
print(chain.run("colorful socks"))

    Rainbow Socks Co.

更多LLMChain 示例请参考：zhuanlan.zhihu.com/p/640693519

chain的分类：

主要分为LLMChain，Sequential Chains，Router Chain，其中LLMChain是最基本的chain它简单的组合了LLM和promt, Sequential Chains主要包含SimpleSequentialChain和SequentialChain，对于SimpleSequentialChain来说它只是简单的将多个LLMChain串联在一起，前一个chain的输出是后一个chain的输入，所以总体上来说SimpleSequentialChain只有一个输入和一个输出，而SequentialChain则具体多个输入或输出。而Router Chain则是具有路由功能的chain ,它可以将用户的问题进行分类，从而将问题传递给特定的chain。

具体可参见：zhuanlan.zhihu.com/p/641887035

个人理解总结：

理解了chains的作用和意义，才能真正理解Langchain的作用和意义，个人理解，Langchain就像高达玩具一样，可以融合市场上主流的大模型，并且提供了组合调用链路以供使用者快速上手使用，也支持使用者自己定义组装自己的调用链路，以此来满足各种各种的场景需求，因此与其说Langchain是个框架和工具，倒不如说Langchain是一个设计模式或者理念，使用者不应该拘泥于某一种的使用方式，而是探索在不同的场景中如何让chains更加高效的工作，甚至是自定义自己的chains。

最后，来看看Langchain中文社区怎么介绍chains的。

链是由链接组成的，它可以是原语或其他链。原语可以是提示、模型、任意函数或其他链。这里的示例分为三个部分：

通用功能

涵盖了通用链（在各种应用程序中都有用的链)以及与这些链相关的通用功能。

与索引相关的链

与处理索引有关的链。

其他所有类型的链

其他所有类型的链！

二、Langchain框架的工作原理

官网Langchain-chatchat的工作流程示意图如下所示：

工作流程：加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的 top k个 -> 匹配出的文本作为上下文和问题一起添加到 prompt中 -> 提交给 LLM生成回答。

加载文件：将需要处理的文本文件加载到系统中。这些文本可以是百科全书、知识图谱或其他类型的知识源。
读取文本：从文件中读取文本内容，并将其转换为字符串格式。
文本分割：将输入的文本分割成单独的句子或段落。这可以通过正则表达式、分词器或其他文本处理方法实现。
文本向量化：将分割后的文本转换为数值向量。这可以通过词嵌入方法（如 Word2Vec、GloVe 等）或将文本转换为独热编码（one-hot encoding）来实现。
问句向量化：将用户输入的问句转换为数值向量。与文本向量化类似，可以使用词嵌入方法或独热编码来实现。
匹配查询：使用相似度计算方法（如余弦相似度、Jaccard 相似度等）在文本向量中找到与问句向量最相似的 top k 个文本片段。这些相似的文本片段可以作为上下文和问题的一部分，添加到 prompt 中。
构建 prompt：将匹配到的文本片段和原始问题组合成一个完整的 prompt。例如，"您的问题关于 $...$ ，以下是与您问题相关的上下文： $...$ ，请回答 $...$ "。
提交给 LLM 生成回答：将构建好的 prompt 提交给大型语言模型（如 GPT-3、ChatGPT 等）进行回答生成。模型根据 prompt 中的上下文和问题生成相应的回答。
输出回答：将模型生成的回答输出给用户，完成问答过程。

从文档处理角度来看，实现流程如下：

Langchain 应用领域：

1，文本总结(Summarization): 对文本/聊天内容的重点内容总结。

2，文档问答(Question and Answering Over Documents): 使用文档作为上下文信息，基于文档内容进行问答。

3，信息抽取(Extraction): 从文本内容中抽取结构化的内容。

4，结果评估(Evaluation): 分析并评估LLM输出的结果的好坏。

5，数据库问答(Querying Tabular Data): 从数据库/类数据库内容中抽取数据信息。

6，代码理解(Code Understanding): 分析代码，并从代码中获取逻辑，同时也支持QA。

7，API交互(Interacting with APIs): 通过对API文档的阅读，理解API文档并向真实世界调用API获取真实数据。

8，聊天机器人(Chatbots): 具备记忆能力的聊天机器人框架（有UI交互能力)。

9，智能体(Agents): 使用LLMs进行任务分析和决策，并调用工具执行决策。

三、代码结构

configs/ 配置文件路径
server/ api服务、大模型服务等服务程序等核心代码
webui_pages/ webui服务
startup.py 启动脚本

zhuanlan.zhihu.com/p/655579960

markdown 复制代码

│  .gitignore
│  CONTRIBUTING.md
│  init_database.py  用于初始化知识库
│  LICENSE
│  README.md
│  release.py
│  requirements.txt
│  requirements_api.txt
│  requirements_webui.txt
│  shutdown_all.sh 一键停止脚本，kill掉启动的服务
│  startup.py 一键启动
│  webui.py ui界面启动
├─chains
│      llmchain_with_history.py
│      
├─common
│      __init__.py
│      
├─configs
│      model_config.py.example 模型配置文件，配置使用的LLM和Emebdding模型；
│      server_config.py.example
│      __init__.py
├─embeddings
│      __init__.py
├─knowledge_base
│  └─samples  知识库
│      ├─content
│      │      test.txt 知识库上传的文档
│      └─vector_store 向量化后的知识
│              index.faiss 
│              index.pkl
│              
├─nltk_data           
├─server
│  │  api.py 用于启动API服务
│  │  api_allinone_stale.py
│  │  llm_api.py 用于启动LLM
│  │  llm_api_shutdown.py  
│  │  llm_api_stale.py
│  │  utils.py
│  │  webui_allinone_stale.py
│  │  
│  ├─chat 
│  │      chat.py 用于与LLM模型对话
│  │      knowledge_base_chat.py 用于与知识库对话
│  │      openai_chat.py
│  │      search_engine_chat.py 用于搜索引擎对话
│  │      utils.py
│  │      __init__.py
│  │      
│  ├─db 知识库的数据库
│  │  │  base.py
│  │  │  session.py
│  │  │  __init__.py
│  │  │  
│  │  ├─models
│  │  │      base.py 数据库表的基础属性
│  │  │      knowledge_base_model.py 知识库模型的表字段
│  │  │      knowledge_file_model.py 知识库文件的表字段
│  │  │      __init__.py
│  │  │      
│  │  └─repository
│  │          knowledge_base_repository.py
│  │          knowledge_file_repository.py
│  │          __init__.py
│  │          
│  ├─knowledge_base
│  │  │  kb_api.py 知识库API，创建、删除知识库；
│  │  │  kb_doc_api.py 知识库文件API，搜索、删除、更新、上传文档，重建向量库；
│  │  │  migrate.py 初始化 or 迁移重建知识库；
│  │  │  utils.py 提供了加载Embedding、获取文件加载器、文件转text的函数，可设置文本分割器；
│  │  │  __init__.py
│  │  │  
│  │  └─kb_service
│  │          base.py 向量库的抽象类
│  │          default_kb_service.py
│  │          faiss_kb_service.py faiss向量库子类
│  │          milvus_kb_service.py
│  │          pg_kb_service.py
│  │          __init__.py
│  │          
│  └─static
│          
├─tests
│  └─api
│          test_kb_api.py 测试知识库API
│          test_stream_chat_api.py 测试对话API
│          
├─text_splitter 各种文本分割器
│      ali_text_splitter.py 达摩院的文档分割
│      chinese_text_splitter.py 中文文本分割
│      zh_title_enhance.py 中文标题增强：判断是否是标题，然后在下一段文字的开头加入提示语与标题建立关联。
│      __init__.py
│      
└─webui_pages UI界面构建
    │  utils.py 简化api调用
    │  __init__.py
    │  
    ├─dialogue
    │      dialogue.py 问答功能，LLM问答和知识库问答，还有搜索引擎问答；
    │      __init__.py
    │      
    ├─knowledge_base 
    │      knowledge_base.py 知识库管理界面构建
    │      __init__.py
    │      
    └─model_config
            model_config.py 模型配置页面，TODO。应该是可以在界面上手动选择采用哪个LLM和Embedding模型。
            __init__.py

参考资料：

从零开始认识langchain（四）组件-链(chains)：zhuanlan.zhihu.com/p/640693519

Langchain中文教程： www.langchain.com.cn/modules/cha...

LangChain大型语言模型(LLM)应用开发(三)：Chains

zhuanlan.zhihu.com/p/641887035

Langchain核心组件及应用： zhuanlan.zhihu.com/p/651151321