关于本博文的所有代码可以在地址下载：GitHub - liu-xiao-guo/python-vector-private

我将在本博文中其中深入研究人工智能和向量嵌入的深水区。 ChatGPT 令人大开眼界，但有一个主要问题。这是一个封闭的托管系统。在一个被大型网络公司改变的世界里生活了二十年之后，我们作为人们担心我们的私人信息甚至我们的知识仅仅因为我们使用互联网就成为他人的财产。作为建立在竞争基础上的经济的参与者，我们对知识和数据集中在有反竞争行为历史的公司手中抱有强烈的不信任。

因此，眼前的问题是：我能否获得本地大型语言模型，并在不使用云服务的情况下在我的笔记本电脑上运行生成式人工智能聊天？本文将展示如何在本地部署大模型，并使用 Elasticsearch 进行向量搜索。

我要建造什么？

简而言之：我将构建一个人工智能聊天机器人，通过将 LLM 与向量存储相结合，它 "知道" 其预先训练的神经网络中没有的东西。

我将从一个经常辅导的项目开始，最好将其描述为 "与我的书交谈"。我没有发明这个，快速搜索发现其他一些通常使用付费 OpenAI API 的方法。示例，视频示例

我将从我用来搜索的第一部分私人数据开始。一本从网上可以直接进行下载的一部书。我将其转换为简单的 .txt 文件，并保存于项目中的 data/sample.txt 文件中。

这将如何运作

关键步骤：

文本被提取成小段落大小的块（chunks），足以容纳有关书的问题问题的所有答案。
每个文本块都被传递给句子转换器，它生成一个密集向量，以向量嵌入的形式表示其语义含义
这些块及其向量嵌入存储在 Elasticsearch 中
当提出问题时，系统会为问题文本创建一个向量，然后查询 Elasticsearch 以查找语义上最接近问题的文本块；想必有些文字会有答案。
为 LLM 编写提示，将检索到的文本块作为额外的上下文知识 "填充"。
LLM 创建问题的答案

有关为什么需要把文本分成不同大小的 chunks，原因如下：

在本示例中，我将使用 sentence-transformers/all-mpnet-base-v2 模型。根据模型的描述，该模型的最大 token 长度为 384：

也就是说，我们需要把书分成最多不超过 384 的 chunks。

Langchain 让一切变得简单

有一个很棒的 Python 库，名为 Langchain，它不仅包含实用程序库，使变压器和向量存储的使用变得简单，而且在某种程度上可以互换。 Langchain 拥有比我在这里使用的更高级的与 LLM 合作的模式，但这是一个很好的第一个测试。

许多 Langchain 教程都需要使用付费 OpenAI 帐户。 OpenAI 很棒，并且目前可能在 LLM 质量竞赛中处于领先地位，但出于上述所有原因，我将使用免费的 HuggingFace 模型和 Elasticsearch。

获取一些离线模型

必须在 Huggingface 中创建一个帐户并获取 API 密钥。之后，你可以使用 Huggingface_hub Python 或 Langchain 库以编程方式下拉模型。在运行代码的 terminal 中，你必须先打入如下的命令：

ini 复制代码

export HUGGINGFACEHUB_API_TOKENs="YOUR TOKEN"

我们在示例中使用如下的模型：

Sentence-transformers/all-mpnet-base-v2- 作为我的向量嵌入生成器
google/flan-t5-large - 作为我用于对话交互的大型语言模型

安装

如果你还没有安装好自己的 Elasticsearch 及 Kibana 的话，那么请参考如下的链接：

在安装的时候，我们选择 Elastic Stack 9.x 的安装指南来进行安装。在默认的情况下，Elasticsearch 集群的访问具有 HTTPS 的安全访问。

生成证书

为了能使得 python 应用能够正常访问 Elasticsearch，我们使用如下的命令来生成 pem 证书：

markdown 复制代码

1.  $ pwd
2.  /Users/liuxg/elastic/elasticsearch-8.10.0
3.  $ ./bin/elasticsearch-keystore list
4.  keystore.seed
5.  xpack.security.http.ssl.keystore.secure_password
6.  xpack.security.transport.ssl.keystore.secure_password
7.  xpack.security.transport.ssl.truststore.secure_password
8.  $ ./bin/elasticsearch-keystore show xpack.security.http.ssl.keystore.secure_password
9.  GcOUL8b2RxKooxJU-VymFg
10.  $ openssl pkcs12 -in ./config/certs/http.p12 -cacerts -out ./python_es_client.pem
11.  Enter Import Password:
12.  Enter PEM pass phrase:
13.  Verifying - Enter PEM pass phrase:
14.  Enter PEM pass phrase:
15.  Verifying - Enter PEM pass phrase:
16.  $ ls
17.  LICENSE.txt          bin                  jdk.app              modules
18.  NOTICE.txt           config               lib                  plugins
19.  README.asciidoc      data                 logs                 python_es_client.pem

我们把上面生成的 python_es_client.pem 文件拷贝到应用的根目录下。这样整个应用的目录架构如下：

markdown 复制代码

1.  $ tree -L 3
2.  .
3.  ├── README.md
4.  ├── app-book.py
5.  ├── data
6.  │   └── sample.txt
7.  ├── lib_book_parse.py
8.  ├── lib_embeddings.py
9.  ├── lib_llm.py
10.  ├── lib_vectordb.py
11.  ├── python_es_client.pem
12.  ├── requirements.txt
13.  └── simple.cfg

配置项目

如上所示，我们有一个叫做 simple.cfg 的配置文件：

simple.cfg

arduino 复制代码

1.  ES_SERVER: "localhost" 
2.  ES_PASSWORD: "vXDWYtL*my3vnKY9zCfL"
3.  ES_FINGERPRINT: "e2c1512f617f432ddf242075d3af5177b28f6497fecaaa0eea11429369bb7b00"

我们需要根据自己的 Elasticsearch 服务器的地址来配置 ES_SERVER。我们也需要配置 elastic 超级用户的密码。这个密码可以在安装 Elasticsearch 时得到。当然你也可以使用其他用户的信息来进行练习。如果这样，你需要做相应的配置和代码改动。

你还可以在 Kibana 的配置文件 confgi/kibana.yml 文件中获得 fingerprint 的配置：

运行项目

在运行项目之前，你需要做一下安装的动作：

bash 复制代码

1.  python3 -m venv env
2.  source env/bin/activate
3.  python3 -m pip install --upgrade pip
4.  pip install -r requirements.txt

创建嵌入模型

lib_embedding.py

python 复制代码

1.  ## for embeddings
2.  from langchain.embeddings import HuggingFaceEmbeddings

4.  def setup_embeddings():
5.      # Huggingface embedding setup
6.      print(">> Prep. Huggingface embedding setup")
7.      model_name = "sentence-transformers/all-mpnet-base-v2"
8.      return HuggingFaceEmbeddings(model_name=model_name)

创建向量存储

lib_vectordb.py

python 复制代码

1.  import os
2.  from config import Config

4.  ## for vector store
5.  from langchain.vectorstores import ElasticVectorSearch

7.  def setup_vectordb(hf,index_name):
8.      # Elasticsearch URL setup
9.      print(">> Prep. Elasticsearch config setup")

12.      with open('simple.cfg') as f:
13.          cfg = Config(f)

15.      endpoint = cfg['ES_SERVER']
16.      username = "elastic"
17.      password = cfg['ES_PASSWORD']

19.      ssl_verify = {
20.          "verify_certs": True,
21.          "basic_auth": (username, password),
22.          "ca_certs": "./python_es_client.pem",
23.      }

25.      url = f"https://{username}:{password}@{endpoint}:9200"

27.      return ElasticVectorSearch( embedding = hf, 
28.                                  elasticsearch_url = url, 
29.                                  index_name = index_name, 
30.                                  ssl_verify = ssl_verify), url

创建使用带有上下文和问题变量的提示模板的离线 LLM

lib_llm.py

ini 复制代码

1.  ## for conversation LLM
2.  from langchain import PromptTemplate, HuggingFaceHub, LLMChain
3.  from langchain.llms import HuggingFacePipeline
4.  import torch
5.  from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, AutoModelForSeq2SeqLM

8.  def make_the_llm():
9.      # Get Offline flan-t5-large ready to go, in CPU mode
10.      print(">> Prep. Get Offline flan-t5-large ready to go, in CPU mode")
11.      model_id = 'google/flan-t5-large'# go for a smaller model if you dont have the VRAM
12.      tokenizer = AutoTokenizer.from_pretrained(model_id) 
13.      model = AutoModelForSeq2SeqLM.from_pretrained(model_id) #load_in_8bit=True, device_map='auto'
14.      pipe = pipeline(
15.          "text2text-generation",
16.          model=model, 
17.          tokenizer=tokenizer, 
18.          max_length=100
19.      )
20.      local_llm = HuggingFacePipeline(pipeline=pipe)
21.      # template_informed = """
22.      # I know the following: {context}
23.      # Question: {question}
24.      # Answer: """

26.      template_informed = """
27.      I know: {context}
28.      when asked: {question}
29.      my response is: """

31.      prompt_informed = PromptTemplate(template=template_informed, input_variables=["context", "question"])

33.      return LLMChain(prompt=prompt_informed, llm=local_llm)

装载书籍

以下是我的分块和向量存储代码。它需要在 Elasticsearch 中准备好组成的 Elasticsearch url、huggingface 嵌入模型、向量数据库和目标索引名称

lib_book_parse.py

ini 复制代码

 2.  from langchain.text_splitter import RecursiveCharacterTextSplitter
3.  from langchain.document_loaders import TextLoader

5.  ## for vector store
6.  from langchain.vectorstores import ElasticVectorSearch
7.  from elasticsearch import Elasticsearch
8.  from config import Config

10.  with open('simple.cfg') as f:
11.      cfg = Config(f)

13.  fingerprint = cfg['ES_FINGERPRINT']
14.  endpoint = cfg['ES_SERVER']
15.  username = "elastic"
16.  password = cfg['ES_PASSWORD']
17.  ssl_verify = {
18.      "verify_certs": True,
19.      "basic_auth": (username, password),
20.      "ca_certs": "./python_es_client.pem",
21.  }

23.  url = f"https://{username}:{password}@{endpoint}:9200"

25.  def parse_book(filepath):
26.      loader = TextLoader(filepath)
27.      documents = loader.load()
28.      text_splitter = RecursiveCharacterTextSplitter(chunk_size=384, chunk_overlap=0)
29.      docs = text_splitter.split_documents(documents)
30.      return docs

32.  def loadBookBig(filepath, url, hf, db, index_name):    

34.      es = Elasticsearch( [ url ], 
35.                         basic_auth = ("elastic", cfg['ES_PASSWORD']), 
36.                         ssl_assert_fingerprint = fingerprint, 
37.                         http_compress = True  )

39.      ## Parse the book if necessary
40.      if not es.indices.exists(index=index_name):
41.          print(f'\tThe index: {index_name} does not exist')
42.          print(">> 1. Chunk up the Source document")

44.          docs = parse_book(filepath)

46.          # print(docs)

48.          print(">> 2. Index the chunks into Elasticsearch")

50.          elastic_vector_search= ElasticVectorSearch.from_documents( docs,
51.                                  embedding = hf, 
52.                                  elasticsearch_url = url, 
53.                                  index_name = index_name, 
54.                                  ssl_verify = ssl_verify)   
55.      else:
56.          print("\tLooks like the book is already loaded, let's move on")

用问题循环将所有内容联系在一起

解析这本书后，主控制循环是这样的

python 复制代码

1.  # ## how to ask a question
2.  def ask_a_question(question):
3.      # print("The Question at hand: "+question)

5.      ## 3. get the relevant chunk from Elasticsearch for a question
6.      # print(">> 3. get the relevant chunk from Elasticsearch for a question")
7.      similar_docs = db.similarity_search(question)
8.      print(f'The most relevant passage: \n\t{similar_docs[0].page_content}')

10.      ## 4. Ask Local LLM context informed prompt
11.      # print(">> 4. Asking The Book ... and its response is: ")
12.      informed_context= similar_docs[0].page_content
13.      response = llm_chain_informed.run(context=informed_context,question=question)
14.      return response

17.  # # The conversational loop

19.  print(f'I am the book, "{bookName}", ask me any question: ')

21.  while True:
22.      command = input("User Question>> ")
23.      response = ask_a_question(command)
24.      print(f"\n\n I think the answer is : {response}\n")

运行结果

我们可以通过如下的命令来运行应用：

复制代码

python3 app-book.py

上面的问题是：

csharp 复制代码

when was it?Although it was not yet late, the sky was dark when I turned into Laundress Passage.

我们来尝试其他的问题：

上面的问题是：

css 复制代码

what will I send to meet you from the half past four arrival at Harrogate Station?

上面的问题是：

css 复制代码

what do I make all the same and put a cup next to him on the desk?

上面的问题是：

csharp 复制代码

How long did I sit on the stairs after reading the letter?

Hooray! 我们完成了问答系统。它可以完美地回答我书里的内容。是不是觉得很神奇：）

使用 Langchain 和 Elasticsearch 对私人数据进行人工智能搜索

我要建造什么？

这将如何运作

Langchain 让一切变得简单

获取一些离线模型

安装

生成证书

配置项目

运行项目

创建嵌入模型

创建向量存储

创建使用带有上下文和问题变量的提示模板的离线 LLM

装载书籍

用问题循环将所有内容联系在一起

运行结果