ES搜索原理

bg: 搜索的时候，使用模糊查询经常出现搜索不到的情况，不如mysql的like有效。

索引（Index）：相当于关系型数据库中的数据库，是一个拥有相似特征的文档的集合。例如，可以为客户数据、商品目录、订单数据等分别建立不同的索引12.
文档（Document）：是可以被索引的基本信息单元，以 JSON 格式表示，类似于关系型数据库中的一行数据。一个文档可以包含多个字段，每个字段有其对应的值，如一篇文章、一个用户信息等都可以作为一个文档存储在 ES 中12.
字段（Field）：组成文档的最小单位，相当于关系型数据库中的一列数据23.
映射（Mapping）：用来定义一个文档以及其所包含的字段如何被存储和索引，包括定义字段的名称、类型，以及所使用的分词器等，类似于关系型数据库中的 Schema23.
分片（Shards）：由于数据量可能很大，一个索引会被分成多个分片来存储在不同的节点上，以实现水平扩展和分布式存储，每个分片可以是单个节点的一部分，也可以跨越多个节点。每个分片包含一部分数据，并且每个分片都有一个主分片和一个或多个复制分片，主分片负责处理写入操作，而复制分片用于容错和读取操作13.

建立词汇表： 将预处理后的文档中的所有唯一词语构建成一个词汇表。每个词汇都有一个唯一的标识符。+ 建立词汇表： 将预处理后的文档中的所有唯一词语构建成一个词汇表。每个词汇都有一个唯一的标识符。
映射关键词到文档ID： 遍历每个文档，对于文档中的每个关键词，将其映射到文档的唯一标识符（文档ID）。这样的映射关系通常以字典的形式保存。+ 映射关键词到文档ID： 遍历每个文档，对于文档中的每个关键词，将其映射到文档的唯一标识符（文档ID）。这样的映射关系通常以字典的形式保存。
生成倒排列表： 对于每个关键词，创建一个倒排列表，其中包含映射到该关键词的所有文档ID。倒排列表实际上是一个映射，将关键词与包含该关键词的文档关联起来。+ 生成倒排列表： 对于每个关键词，创建一个倒排列表，其中包含映射到该关键词的所有文档ID。倒排列表实际上是一个映射，将关键词与包含该关键词的文档关联起来。

搜索引擎的检索过程是通过倒排索引来实现的，这个过程可以分为几个关键步骤，让我们逐步解析搜索引擎如何利用倒排索引进行检索，并强调倒排索引在快速定位相关文档方面的高效性。

1. 用户查询输入：

2. 关键词分析：

3. 查询到关键词的倒排列表：

4. 倒排列表的交集操作：

5. 文档排序和排名：

6. 返回搜索结果：

倒排索引的设计使得搜索引擎能够在海量文档中迅速定位包含查询关键词的文档，因此在检索过程中具有高效性。通过直接访问倒排列表，搜索引擎可以快速获取包含关键词的文档ID，而不需要逐一扫描所有文档。这种高效的检索过程是搜索引擎能够迅速响应用户查询的关键。