分布式搜索（Elasticsearch）基本用法

PUT /haha
{
    "mappings":{
        "properties":{
            "info":{
                "type":"text",
                "analyzer":"ik_smart"
            },
            "email":{
                 "type":"keyword",
                 "index":false
            },
            "name":{
                "type":"object",
                "properties":{
                     "firstName":{
                        "type":"keyword"
                        },
                        "lastName":{
                        "type":"keyword"
                        }
                }
            }
        }
    }
}

查看、删除索引库

查看索引库语法：

GET /索引库名

删除索引库的语法：

DELETE /索引库名

修改索引库

索引库和mapping一旦创建无法修改，但是可以添加新的字段，语法如下：

文档操作

新增文档

查询文档

GET /索引库名/_doc/文档id

删除文档

DELETE /索引库名/_doc/文档id

修改文档

方式一：全量删除，会删除旧文档，添加新文档

方式二：增量修改，修改指定字段

RestClient操作索引库

RestClient是ES官方提供了各种不同语言的客户端，用来操作ES。这些客户端的本质就是组装DSL语句，通过http请求发送给ES。官方文档地址：Elasticsearch clients | Elastic Docs

创建索引库

mapping要考虑的问题：

字段名、数据类型、是否参与搜索、是否分词、如果分词、分词器是什么

1.导入数据

2.编写mapping映射

id一般在ES中用keyword来表示

3.初始化JavaRestClient

（1）.引入es的RestHighLevelClient依赖：

XML 复制代码

     <dependency>
            <groupId>org.elasticsearch.client</groupId>
            <artifactId>elasticsearch-rest-high-level-client</artifactId>
            <version>7.12.1</version>
        </dependency>

（2）.配置版本

（3）.初始化JavaRestClient

java 复制代码

public class HotelIndex {

    private RestHighLevelClient client;


    @Test
    void testInit(){
        System.out.println(client);
    }
    @BeforeEach
    public void setUp() throws Exception {
        this.client = new RestHighLevelClient(RestClient.builder(HttpHost.create("http://localhost:9200")));
    }
    @AfterEach
    public void tearDown() throws Exception {
        this.client.close();
    }

}

4.创建索引库

java 复制代码

    @Test
    void createHotelIndex() throws IOException {
        CreateIndexRequest request = new CreateIndexRequest("hotel");
        request.source("""
                {
                  "mappings": {
                    "properties": {
                      "name": {
                        "type": "text"
                      },
                      "price": {
                        "type": "long"
                      },
                      "location": {
                        "type": "text"
                      },
                      "amenities": {
                        "type": "keyword"
                      }
                    }
                  }
                }
                """, XContentType.JSON);
        client.indices().create(request, RequestOptions.DEFAULT);
    }

删除索引库

java 复制代码

   @Test
    void deleteHotelIndex() throws IOException {
        client.indices().delete(new DeleteIndexRequest("hotel"), RequestOptions.DEFAULT);
    }

判断索引库是否存在

java 复制代码

    @Test
    void existsHotelIndex() throws IOException {
        GetIndexRequest request = new GetIndexRequest("hotel");
        boolean exists = client.indices().exists(request, RequestOptions.DEFAULT);
        System.out.println(exists);
    }

RestClient操作文档

文档操作也同样需要初始化RestHighLevelClient

新增文档

从数据库中加载数据，并且转换为JSON格式

查询文档

直接解析的结果为json格式，记得将json格式反序列化

更新文档

方式一：

全量更新。再次学日语id一样的文档，就会删除旧文档，添加新文档

方式二：

局部更新。只更新部分字段

删除文档

批量导入文档

DSL查询文档

DSL查询分类

Elasticsearch提供了基于JSON的DSL（Domain Specific Language）来定义查询。常见的查询类型包括：

查询所有：查询出所有数据，一般测试用。例如：`match_all`

全文检索（full text）查询**：利用分词器对用户输入内容分词，然后去倒排索引库中匹配。例如：

`match_query`
`multi_match_query`

精确查询：根据精确词条值查找数据，一般是查找keyword、数值、日期、boolean等类型字段。例如：

`ids`
`range`
`term`

地理（geo）查询：根据经纬度查询。例如：

`geo_distance`
`geo_bounding_box`

复合（compound）查询：复合查询可以将上述各种查询条件组合起来，合并查询条件。例如：

`bool`
`function_score`

全文检索查询

match查询：全文检索查询的一种，会对用户输入内容分词，然后去倒排索引库检索，语法：

multi_match：与match查询类似，只不过允许同时查询多个字段，语法：

精准查询

精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词。常见的有：

term：根据词条精确值查询

range：根据值的范围查询

地理坐标查询

根据经纬度查询。常见的使用场景包括：

携程：搜索我附近的酒店

滴滴：搜索我附近的出租车

微信：搜索我附近的人

geo_bounding_box：查询geo_point值落在某个矩形范围的所以文档

geo_distance：查询到指定中心点小于某个距离值的所有文档

组合查询（复合查询）

复合查询：复合查询可以将其它简单查询组合起来，实现更复杂的搜索逻辑，例如：

**fuction score：**算分函数查询，可以控制文档相关性算分，控制文档排名。例如百度竞价

搜索结果处理

排序

Elasticsearch支持对搜索结果进行排序，默认情况下是根据相关度算分（_score）进行排序。支持的排序字段类型包括：keyword类型 、数值类型 、地理坐标类型 、日期类型

获取经纬度的方式：高德开放平台 | 高德地图API

分页

elasticsearch默认情况下只返回top10的数据。而如果要查询更多数据就需要修改分页参数了。

elasticsearch中通过修改from、size参数来控制要返回的分页结果：

该方法限制了查询上限为10000条

深度分页问题

ES是分布式的，所以会面临深度分页问题。例如按price排序后，获取from=990，size=10的数据：

深度分页解决方案：

Search After
- 原理：基于上一页的排序值继续查询下一页数据，要求分页时必须指定排序规则。
- 特点：官方推荐的方式，适用于实时滚动查询，避免性能问题。
Scroll
- 原理：将排序数据生成快照并保存在内存中，适合大批量数据遍历。
- 特点：官方已不再推荐使用，因为会占用较多资源且数据可能不是最新的。