AI(学习笔记第九课) 使用langchain的MultiQueryRetriever和indexing

文章目录

  • [AI(学习笔记第九课) 使用langchain的MultiQueryRetriever和indexing](#AI(学习笔记第九课) 使用langchain的MultiQueryRetriever和indexing)
  • 学习内容:
    • 1.`MultiQueryRetriever`的基本概念
      • [1.1 学习`embedding model url`](#1.1 学习embedding model url)
      • [1.2 为什么引入`MultiQueryRetriever`](#1.2 为什么引入MultiQueryRetriever)
      • [1.3 `MultiQueryRetriever`的代码](#1.3 MultiQueryRetriever的代码)
      • [1.4 `MultiQueryRetriever`的代码执行结果](#1.4 MultiQueryRetriever的代码执行结果)
    • 2.`Indexing`的基本概念
      • [2.1 `indexing`的`langchain`说明](#2.1 indexinglangchain说明)
      • [2.2 为什么要对`document`进行`indexing`](#2.2 为什么要对document进行indexing)
      • [2.3 `vector store`的整体结构](#2.3 vector store的整体结构)
      • [2.4 对`vector store`中的文档`document`进行`indexing`的需求](#2.4 对vector store中的文档document进行indexing的需求)
      • [2.5 `indexing API`提供四种模式](#2.5 indexing API提供四种模式)
      • [2.6 `indexing`的代码实现](#2.6 indexing的代码实现)
        • [2.6.1 下载并使用`elastic search`](#2.6.1 下载并使用elastic search)
        • [2.6.2 实现代码](#2.6.2 实现代码)
      • [2.7 `indexing`的代码执行](#2.7 indexing的代码执行)

AI(学习笔记第九课) 使用langchain的MultiQueryRetriever和indexing

  • 为什么需要使用MultiQueryRetriever
  • 如何使用MultiQueryRetriever
  • 为什么要进行indexing
  • 如何对vector db进行indexing

学习内容:

  • MultiQueryRetriever的基本概念
  • langchain中如何使用MultiQueryRetriever

1.MultiQueryRetriever的基本概念

1.1 学习embedding model url

1.2 为什么引入MultiQueryRetriever

基于vector database的检索,会有一个问题,那就是当微调提示词的时候,结果会发生变化,根据AI的提示词工程(prompt engineer)会有很多变化,但是不断的调整提示词会很麻烦,有时候还没有思路。
MultiQueryRetriever自动化这个过程,进行提示词优化。

  • 使用大模型LLM,对检索提示词进行优化,产生多个提示词(query words)。
  • 对每个检索词都进行对向量数据库进行检索vector database
  • 综合每个检索结果,进行最优化。

1.3 MultiQueryRetriever的代码

python 复制代码
# Build a sample vectorDB
from langchain.retrievers import MultiQueryRetriever
from langchain_openai import ChatOpenAI
from langchain_chroma import Chroma
from langchain_community.document_loaders import WebBaseLoader
from langchain_ollama import OllamaEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
import logging

# 使用Ollama的嵌入模型
embeddings_model = OllamaEmbeddings(
        base_url='http://192.168.2.208:11434',
        model="nomic-embed-text")
# Load blog post
loader = WebBaseLoader("https://lilianweng.github.io/posts/2023-06-23-agent/")
data = loader.load()

# Split
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
splits = text_splitter.split_documents(data)

# VectorDB
vectordb = Chroma.from_documents(documents=splits, embedding=embeddings_model)

# 配置 DeepSeek API(deepseek 兼容 OpenAI)
llm = ChatOpenAI(
    api_key = 'sk-XXXXXX',
    base_url = 'https://api.deepseek.com/v1',
    model='deepseek-chat'# 或其他 DeepSeek 模型
)
question = "What are the approaches to Task Decomposition?"
retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=vectordb.as_retriever(), llm=llm
)
logging.basicConfig()
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)

unique_docs = retriever_from_llm.invoke(question)
print(len(unique_docs))

# 添加分隔符和详细打印
print("\n" + "="*50)
print("UNIQUE DOCUMENTS DETAILS:")
print("="*50)

for i, doc in enumerate(unique_docs):
    print(f"\n--- Document {i+1} ---")
    print(f"Content: {doc.page_content[:100]}...")  # 显示前100个字符
    if hasattr(doc, 'metadata') and doc.metadata:
        print(f"Metadata: {doc.metadata}")
    print("-" * 30)
  • 使用https://lilianweng.github.io/posts/2023-06-23-agent这个内容,作为例子,构建vector db

  • 这里使用了logging,将langchain.retrievers.multi_query,进行输出。

    复制代码
    INFO:langchain.retrievers.multi_query:Generated queries:
     ['What are the main strategies for breaking down a complex task into smaller sub-tasks?', 
     'How can a large problem be decomposed into more manageable components?', 
     'What frameworks or methodologies exist for dividing work into smaller, actionable steps?']
  • 提出的原始提示词是What are the approaches to Task Decomposition?
    可以看到LLM给补充了三个。

    1. What are the main strategies for breaking down a complex task into smaller sub-tasks?
    2. How can a large problem be decomposed into more manageable components?
    3. What frameworks or methodologies exist for dividing work into smaller, actionable steps?

1.4 MultiQueryRetriever的代码执行结果

2.Indexing的基本概念

2.1 indexinglangchain说明

How to use the LangChain indexing API

这里给出了如何对vector storedocument进行indexing

2.2 为什么要对document进行indexing

langchainindexing API能帮助将document进行装载进vector store,能提供以下功能:

  1. 避免将重复的document写入进vector store
  2. 避免将

2.3 vector store的整体结构

构建一个vector store, 会以document作为单位,讲每个文档进行embed indexing的同时,vector store会对文档的

  1. hash
  2. write time
  3. source id
    进行管理。

2.4 对vector store中的文档document进行indexing的需求

有两种可能,需要对vector store中的文档document进行删除。

  • 如果对一个存在在vector store中的document文档,进行再次indexing,那么需要删除该document
  • 或者就想删除一个在vector store中的document文档。

2.5 indexing API提供四种模式

  • none不能自动删除indexingdocument。这种模式完全是汽车的"手动挡"。
  • 如果文档或者派生文档的内容发生变化,那么incrementalFullScoped_Full模式将自动删除前一个版本的旧文档。
  • 如果主动从vector store中,删除一个文档,Full模式会自动将这个文档上对应的indexing删除,但是IncrementalScoped_Full并不会自动删除。

2.6 indexing的代码实现

这里,使用elastic search构建vector store

  • 首先下载elastic search
    elastic search官方网站
  • 解压并进入elastic search的安装路径
    进入%installed_path%\bin\
    这里%installed_path%D:\01_software\28_elastic_search\elasticsearch-9.1.4\
  • 执行elastic seach
    在本机的9200上端口上,启动elastic search
    默认启动就是9200端口。
2.6.2 实现代码
  • vector store indexing

  • 整体架构

  • 代码解析

    • 创建elastic store

      python 复制代码
      #使用Ollama的嵌入模型
      embeddings_model = OllamaEmbeddings(
              base_url='http://192.168.1.109:11434',
              model="nomic-embed-text")
      
      vectorstore = ElasticsearchStore(
          es_url="http://127.0.0.1:9200/",
          index_name="test_index",
          embedding=embeddings_model,
      )


    使用elastic search创建vector store,并设定embeding model(这里使用本地的ollama model

    • 创建SQLRecordManager以及namespace

      python 复制代码
      namespace = f"elasticsearch/{collection_name}"
      record_manager = SQLRecordManager(
          namespace, db_url="sqlite:///record_manager_cache.sql"
      )
      record_manager.create_schema()

      创建record_manager_cache.sql,用来保存records

    • 创建连个简单文档document

      python 复制代码
      doc1 = Document(page_content="kitty", metadata={"source": "kitty.txt"})
      doc2 = Document(page_content="doggy", metadata={"source": "doggy.txt"})
    • 将文档doc1重复进行五次indexing

      python 复制代码
      def _clear():
          """Hacky helper method to clear content. See the `full` mode section to understand why it works."""
          index([], record_manager, vectorstore, cleanup="full", source_id_key="source")
      
      _clear()
      print (index(
          [doc1, doc1, doc1, doc1, doc1],
          record_manager,
          vectorstore,
          cleanup=None,
          source_id_key="source",
      ))
    • 将文档doc1doc2分别进行indexing

      python 复制代码
      _clear()
      print(
          index([doc1, doc2], record_manager, vectorstore, cleanup=None, source_id_key="source")
      )

2.7 indexing的代码执行

可以看出

  • 第一次执行,结果added可一个文档document,其他的四次都被忽略了。
  • 第二次执行,分别给出两个不同的文档,added了两个document
    和期待的结果一致。
    有了这个langchainindexing API,可以自由的对于document进行delete和重新indexing
相关推荐
OopsOutOfMemory2 小时前
LangChain源码分析(一)- LLM大语言模型
人工智能·语言模型·langchain·aigc
bawangtianzun2 小时前
树的重心与直径 性质
数据结构·c++·学习·算法
少陵野小Tommy2 小时前
C语言计算行列式的值
c语言·开发语言·学习·学习方法
ASIAZXO2 小时前
机器学习——SVM支持向量机详解
人工智能·机器学习·支持向量机
张书名2 小时前
《强化学习数学原理》学习笔记7——从贝尔曼最优方程得到最优策略
笔记·学习
报错小能手2 小时前
linux学习笔记(11)fork详解
linux·笔记·学习
我命由我123452 小时前
Photoshop - Photoshop 工具栏(1)移动工具
笔记·学习·ui·职场和发展·求职招聘·职场发展·photoshop
Prettybritany3 小时前
文本引导的图像融合方法
论文阅读·图像处理·人工智能·深度学习·计算机视觉
weixin_456904273 小时前
OpenCV 摄像头参数控制详解
人工智能·opencv·计算机视觉