AI(学习笔记第九课) 使用langchain的MultiQueryRetriever和indexing

文章目录

  • [AI(学习笔记第九课) 使用langchain的MultiQueryRetriever和indexing](#AI(学习笔记第九课) 使用langchain的MultiQueryRetriever和indexing)
  • 学习内容:
    • 1.`MultiQueryRetriever`的基本概念
      • [1.1 学习`embedding model url`](#1.1 学习embedding model url)
      • [1.2 为什么引入`MultiQueryRetriever`](#1.2 为什么引入MultiQueryRetriever)
      • [1.3 `MultiQueryRetriever`的代码](#1.3 MultiQueryRetriever的代码)
      • [1.4 `MultiQueryRetriever`的代码执行结果](#1.4 MultiQueryRetriever的代码执行结果)
    • 2.`Indexing`的基本概念
      • [2.1 `indexing`的`langchain`说明](#2.1 indexinglangchain说明)
      • [2.2 为什么要对`document`进行`indexing`](#2.2 为什么要对document进行indexing)
      • [2.3 `vector store`的整体结构](#2.3 vector store的整体结构)
      • [2.4 对`vector store`中的文档`document`进行`indexing`的需求](#2.4 对vector store中的文档document进行indexing的需求)
      • [2.5 `indexing API`提供四种模式](#2.5 indexing API提供四种模式)
      • [2.6 `indexing`的代码实现](#2.6 indexing的代码实现)
        • [2.6.1 下载并使用`elastic search`](#2.6.1 下载并使用elastic search)
        • [2.6.2 实现代码](#2.6.2 实现代码)
      • [2.7 `indexing`的代码执行](#2.7 indexing的代码执行)

AI(学习笔记第九课) 使用langchain的MultiQueryRetriever和indexing

  • 为什么需要使用MultiQueryRetriever
  • 如何使用MultiQueryRetriever
  • 为什么要进行indexing
  • 如何对vector db进行indexing

学习内容:

  • MultiQueryRetriever的基本概念
  • langchain中如何使用MultiQueryRetriever

1.MultiQueryRetriever的基本概念

1.1 学习embedding model url

1.2 为什么引入MultiQueryRetriever

基于vector database的检索,会有一个问题,那就是当微调提示词的时候,结果会发生变化,根据AI的提示词工程(prompt engineer)会有很多变化,但是不断的调整提示词会很麻烦,有时候还没有思路。
MultiQueryRetriever自动化这个过程,进行提示词优化。

  • 使用大模型LLM,对检索提示词进行优化,产生多个提示词(query words)。
  • 对每个检索词都进行对向量数据库进行检索vector database
  • 综合每个检索结果,进行最优化。

1.3 MultiQueryRetriever的代码

python 复制代码
# Build a sample vectorDB
from langchain.retrievers import MultiQueryRetriever
from langchain_openai import ChatOpenAI
from langchain_chroma import Chroma
from langchain_community.document_loaders import WebBaseLoader
from langchain_ollama import OllamaEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
import logging

# 使用Ollama的嵌入模型
embeddings_model = OllamaEmbeddings(
        base_url='http://192.168.2.208:11434',
        model="nomic-embed-text")
# Load blog post
loader = WebBaseLoader("https://lilianweng.github.io/posts/2023-06-23-agent/")
data = loader.load()

# Split
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
splits = text_splitter.split_documents(data)

# VectorDB
vectordb = Chroma.from_documents(documents=splits, embedding=embeddings_model)

# 配置 DeepSeek API(deepseek 兼容 OpenAI)
llm = ChatOpenAI(
    api_key = 'sk-XXXXXX',
    base_url = 'https://api.deepseek.com/v1',
    model='deepseek-chat'# 或其他 DeepSeek 模型
)
question = "What are the approaches to Task Decomposition?"
retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=vectordb.as_retriever(), llm=llm
)
logging.basicConfig()
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)

unique_docs = retriever_from_llm.invoke(question)
print(len(unique_docs))

# 添加分隔符和详细打印
print("\n" + "="*50)
print("UNIQUE DOCUMENTS DETAILS:")
print("="*50)

for i, doc in enumerate(unique_docs):
    print(f"\n--- Document {i+1} ---")
    print(f"Content: {doc.page_content[:100]}...")  # 显示前100个字符
    if hasattr(doc, 'metadata') and doc.metadata:
        print(f"Metadata: {doc.metadata}")
    print("-" * 30)
  • 使用https://lilianweng.github.io/posts/2023-06-23-agent这个内容,作为例子,构建vector db

  • 这里使用了logging,将langchain.retrievers.multi_query,进行输出。

    复制代码
    INFO:langchain.retrievers.multi_query:Generated queries:
     ['What are the main strategies for breaking down a complex task into smaller sub-tasks?', 
     'How can a large problem be decomposed into more manageable components?', 
     'What frameworks or methodologies exist for dividing work into smaller, actionable steps?']
  • 提出的原始提示词是What are the approaches to Task Decomposition?
    可以看到LLM给补充了三个。

    1. What are the main strategies for breaking down a complex task into smaller sub-tasks?
    2. How can a large problem be decomposed into more manageable components?
    3. What frameworks or methodologies exist for dividing work into smaller, actionable steps?

1.4 MultiQueryRetriever的代码执行结果

2.Indexing的基本概念

2.1 indexinglangchain说明

How to use the LangChain indexing API

这里给出了如何对vector storedocument进行indexing

2.2 为什么要对document进行indexing

langchainindexing API能帮助将document进行装载进vector store,能提供以下功能:

  1. 避免将重复的document写入进vector store
  2. 避免将

2.3 vector store的整体结构

构建一个vector store, 会以document作为单位,讲每个文档进行embed indexing的同时,vector store会对文档的

  1. hash
  2. write time
  3. source id
    进行管理。

2.4 对vector store中的文档document进行indexing的需求

有两种可能,需要对vector store中的文档document进行删除。

  • 如果对一个存在在vector store中的document文档,进行再次indexing,那么需要删除该document
  • 或者就想删除一个在vector store中的document文档。

2.5 indexing API提供四种模式

  • none不能自动删除indexingdocument。这种模式完全是汽车的"手动挡"。
  • 如果文档或者派生文档的内容发生变化,那么incrementalFullScoped_Full模式将自动删除前一个版本的旧文档。
  • 如果主动从vector store中,删除一个文档,Full模式会自动将这个文档上对应的indexing删除,但是IncrementalScoped_Full并不会自动删除。

2.6 indexing的代码实现

这里,使用elastic search构建vector store

  • 首先下载elastic search
    elastic search官方网站
  • 解压并进入elastic search的安装路径
    进入%installed_path%\bin\
    这里%installed_path%D:\01_software\28_elastic_search\elasticsearch-9.1.4\
  • 执行elastic seach
    在本机的9200上端口上,启动elastic search
    默认启动就是9200端口。
2.6.2 实现代码
  • vector store indexing

  • 整体架构

  • 代码解析

    • 创建elastic store

      python 复制代码
      #使用Ollama的嵌入模型
      embeddings_model = OllamaEmbeddings(
              base_url='http://192.168.1.109:11434',
              model="nomic-embed-text")
      
      vectorstore = ElasticsearchStore(
          es_url="http://127.0.0.1:9200/",
          index_name="test_index",
          embedding=embeddings_model,
      )


    使用elastic search创建vector store,并设定embeding model(这里使用本地的ollama model

    • 创建SQLRecordManager以及namespace

      python 复制代码
      namespace = f"elasticsearch/{collection_name}"
      record_manager = SQLRecordManager(
          namespace, db_url="sqlite:///record_manager_cache.sql"
      )
      record_manager.create_schema()

      创建record_manager_cache.sql,用来保存records

    • 创建连个简单文档document

      python 复制代码
      doc1 = Document(page_content="kitty", metadata={"source": "kitty.txt"})
      doc2 = Document(page_content="doggy", metadata={"source": "doggy.txt"})
    • 将文档doc1重复进行五次indexing

      python 复制代码
      def _clear():
          """Hacky helper method to clear content. See the `full` mode section to understand why it works."""
          index([], record_manager, vectorstore, cleanup="full", source_id_key="source")
      
      _clear()
      print (index(
          [doc1, doc1, doc1, doc1, doc1],
          record_manager,
          vectorstore,
          cleanup=None,
          source_id_key="source",
      ))
    • 将文档doc1doc2分别进行indexing

      python 复制代码
      _clear()
      print(
          index([doc1, doc2], record_manager, vectorstore, cleanup=None, source_id_key="source")
      )

2.7 indexing的代码执行

可以看出

  • 第一次执行,结果added可一个文档document,其他的四次都被忽略了。
  • 第二次执行,分别给出两个不同的文档,added了两个document
    和期待的结果一致。
    有了这个langchainindexing API,可以自由的对于document进行delete和重新indexing
相关推荐
我的username4 分钟前
极致简单的openclaw安装教程
人工智能
小锋java123410 分钟前
【技术专题】嵌入模型与Chroma向量数据库 - Chroma 集合操作
人工智能
七月丶10 分钟前
别再手动凑 PR 了:这个 AI Skill 会按仓库习惯自动建分支、拆提交、提 PR
人工智能·设计模式·程序员
用户51914958484533 分钟前
CVE-2024-10793 WordPress插件权限提升漏洞利用演示
人工智能·aigc
chaors1 小时前
从零学RAG0x01之向量化
人工智能·aigc·ai编程
chaors1 小时前
从零学RAG0x02向量数据库
人工智能·aigc·ai编程
陈少波AI应用笔记1 小时前
硅谷龙虾大战技术拆解:当AI长出爪子
人工智能
冬奇Lab1 小时前
一天一个开源项目(第39篇):PandaWiki - AI 驱动的开源知识库搭建系统
人工智能·开源·资讯
大模型真好玩2 小时前
LangChain DeepAgents 速通指南(三)—— 让Agent告别混乱:Tool Selector与Todo List中间件解析
人工智能·langchain·trae
孟祥_成都2 小时前
【全网最通俗!新手到AI全栈开发必读】 AI 是如何进化到大模型的
前端·人工智能·全栈