Elasticsearch快速入门以及基本语法总结

一、基础概念

1、基础了解

Elasticsearch是基于语言Lucene语言的一款强大的分布式搜索引擎。elasticsearch结合kibana、Logstash、Beats,也就是elastic stack(ELK技术栈),通常用于数据的搜索、监控、日志和日志等作用。

es和Mysql是有所区别的,Mysql作为关系型数据库,用于存储数据,因为其事务保证数据一致性,而ES则是用于搜索数据,没有事务。

2、es相关概念

倒排索引:所谓倒排索引是相对于正向索引来说的,举例而言,在下表中,是常规的正向索引,通过foodId查询到对应的一条数据。当查询name="芋泥奶茶"时,需要全表查询,遍历到第三条数据,如果数据量大,显然是不可取的。而倒排索引,则是根据文本查询数据,这样查询"芋泥奶茶",查询到的就是"芋泥:3,4"和"奶茶:3".

foodId name price
1 巧克力牛奶 5
2 牛奶麻薯 25
3 芋泥奶茶 12
4 芋泥千层 30
term 数据id
巧克力 1
牛奶 1,2
芋泥 3,4
奶茶 3

文档:文档是Json的数据,比如下面面的数据,那么文档就是下图所示:

json 复制代码
{
  "foodId": 1,
  "name": "巧克力牛奶",
  "price": 5
}

字段:类似于数据库中的列,在上文中就是foodid这样。

索引:相同类型的文档集合,如下所示,就是一个索引.eg:所有食物文档,就可以组织在一起,称为食物的索引;所有人员的文档,可以组织在一起,称为人员的索引;

json 复制代码
{
  "foodId": 1,
  "name": "巧克力牛奶",
  "price": 5
}
{
  "foodId": 2,
  "name": "巧克力蛋糕",
  "price": 30
}
{
  "foodId": 3,
  "name": "芋泥奶茶",
  "price": 12
}
json 复制代码
{
  "nameId": 1,
  "name": "张三",
  "gender": "女",
  "age": 15
}
{
  "nameId": 2,
  "name": "李四",
  "gender": "女",
  "age": 17
}
{
  "nameId": 3,
  "name": "王五",
  "gender": "男",
  "age": 15
}

映射:索引中文档字段的约束信息。

分词器:根据设置的分词器不同,分词的规则也不同,ik_smart:智能切分,粗粒度;ik_max_word:最细切分,细粒度。text字段必须使用分词器。

二、Es的基本操作

1、索引

创建索引:PUT/索引库名

json 复制代码
PUT /索引库名称
{
  "mappings": {
    "properties": {
      "字段名":{
        "type": "text",
        "analyzer": "ik_smart" //中文分析器
      },
      "字段名2":{
        "type": "keyword",
        "index": "false" //不会被索引
      },
      "字段名3":{
        "properties": {
          "子字段": {
            "type": "keyword"
          }
        }
      },
      // ...略
    }
  }
}

查询索引:GET/索引库名

删除索引:DELETE/索引库名

json 复制代码
{
	"acknowledged" : true
}

添加字段:PUT/索引库名/_mapping。不难发现索引一旦创建,就不允许修改了,因为索引库一旦创建,无法修改mapping。但是可以添加新的Mapping,不会对原来的索引造成影响。

bash 复制代码
PUT /索引库名/_mapping
{
  "properties": {
    "新字段名":{
      "type": "integer"
    }
  }
}

2、文档操作

新增文档:POST/索引库名/_doc/文档id { json文档 }

bash 复制代码
POST /索引库名/_doc/文档id
{
    "字段1": "值1",
    "字段2": "值2",
    "字段3": {
        "子属性1": "值3",
        "子属性2": "值4"
    },
    // ...
}

获取文档:GET/索引库名/_doc/文档id

bash 复制代码
GET /heima/_doc/1

删除文档:DELETE/索引库名/_doc/文档id

bash 复制代码
# 根据id删除数据
DELETE /heima/_doc/1

修改文档:有两种方式,全量修改或者增量修改

    • 全量修改:本质是删除,原本的id,然后更新新的内容,PUT/索引库名/_doc/文档id {json文档}
    • 增量修改:在原本的基础上,进行增加,POST/索引库名/_update/文档id {"doc":{字段}}
bash 复制代码
PUT /{索引库名}/_doc/文档id
{
    "字段1": "值1",
    "字段2": "值2",
    // ... 略
}
bash 复制代码
POST /{索引库名}/_update/文档id
{
    "doc": {
         "字段名": "新的值",
    }
}

3、查询

常见的查询类型包括:

  • 查询所有:查询出所有数据,一般测试用。例如:match_all
  • 全文检索(full text)查询:利用分词器对用户输入内容分词,然后去倒排索引库中匹配。例如:
    • match_query
    • multi_match_query
  • 精确查询:根据精确词条值查找数据,一般是查找keyword、数值、日期、boolean等类型字段。例如:
    • ids
    • range
    • term
  • 地理(geo)查询:根据经纬度查询。例如:
    • geo_distance
    • geo_bounding_box
  • 复合(compound)查询:复合查询可以将上述各种查询条件组合起来,合并查询条件。例如:
    • bool
    • function_score
(1)、查询语法

虽然查询类型颇多,但是查询语句是一样的~,无非就是类型、条件、条件值的变化。

bash 复制代码
GET /indexName/_search
{
  "query": {
    "查询类型": {
      "查询条件": "条件值"
    }
  }
}
(2)、全文检索

常见的全文检索查询包括:

  • match查询:单字段查询
  • multi_match查询:多字段查询,任意一个字段符合条件就算符合查询条件

match查询语法如下:

bash 复制代码
GET /indexName/_search
{
  "query": {
    "match": {
      "FIELD": "TEXT"
    }
  }
}

mulit_match语法如下:

bash 复制代码
GET /indexName/_search
{
  "query": {
    "multi_match": {
      "query": "TEXT",
      "fields": ["FIELD1", " FIELD12"]
    }
  }
}
(3)、精确检索

精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词。常见的有:

  • term:根据词条精确值查询
  • range:根据值的范围查询

term:因为精确查询的字段搜是不分词的字段,因此查询的条件也必须是不分词的词条。查询时,用户输入的内容跟自动值完全匹配时才认为符合条件。如果用户输入的内容过多,反而搜索不到数据。

bash 复制代码
// term查询
GET /indexName/_search
{
  "query": {
    "term": {
      "FIELD": {
        "value": "VALUE"
      }
    }
  }
}

range:范围查询,一般应用在对数值类型做范围过滤的时候。比如做价格范围过滤。

json 复制代码
// range查询
GET /indexName/_search
{
  "query": {
    "range": {
      "FIELD": {
        "gte": 10, // 这里的gte代表大于等于,gt则代表大于
        "lte": 20 // lte代表小于等于,lt则代表小于
      }
    }
  }
}
(4)、地理坐标检索

所谓的地理坐标查询,其实就是根据经纬度查询,有以下常见的两种:

geo_bounding_box:矩形范围查询,也就是geo_bounding_box查询,查询坐标落在某个矩形范围的所有文档:查询时,需要指定矩形的左上右下两个点的坐标,然后画出一个矩形,落在该矩形内的都是符合条件的点。

语法如下:

json 复制代码
// geo_bounding_box查询
GET /indexName/_search
{
  "query": {
    "geo_bounding_box": {
      "FIELD": {
        "top_left": { // 左上点
          "lat": 31.1,
          "lon": 121.5
        },
        "bottom_right": { // 右下点
          "lat": 30.9,
          "lon": 121.7
        }
      }
    }
  }
}

geo_distance:附近查询,也叫做距离查询(geo_distance):查询到指定中心点小于某个距离值的所有文档。也就是,在地图上找一个点作为圆心,以指定距离为半径,画一个圆,落在圆内的坐标都算符合条件:

json 复制代码
// geo_distance 查询
GET /indexName/_search
{
  "query": {
    "geo_distance": {
      "distance": "15km", // 半径
      "FIELD": "31.21,121.5" // 圆心
    }
  }
}
(5)、复合检索

复合(compound)查询:复合查询可以将其它简单查询组合起来,实现更复杂的搜索逻辑。常见的有两种:

  • fuction score:算分函数查询,可以控制文档相关性算分,控制文档排名;
  • bool query:布尔查询,利用逻辑关系组合多个其它的查询,实现复杂搜索,在使用es的时候非常常见。

当我们利用match查询时,文档结果会根据与搜索词条的关联度打分(_score),返回结果时按照分值降序排列。之前是TF-IDF算法,elasticsearch5.1版本后采用的BM25算法,TF-IDF算法有一各缺陷,就是词条频率越高,文档得分也会越高,单个词条对文档影响较大。而BM25则会让单个词条的算分有一个上限,曲线更加平滑。

(a)、function score

查询中包含四部分内容:

  • 原始查询 条件:query部分,基于这个条件搜索文档,并且基于BM25算法给文档打分,原始算分、 (query score)
  • 过滤条件:filter部分,符合该条件的文档才会重新算分
  • 算分函数 :符合filter条件的文档要根据这个函数做运算,得到的函数算分(function score),有四种函数
    • weight:函数结果是常量
    • field_value_factor:以文档中的某个字段值作为函数结果
    • random_score:以随机数作为函数结果
    • script_score:自定义算分函数算法
  • 运算模式:算分函数的结果、原始查询的相关性算分,两者之间的运算方式,包括:
    • multiply:相乘
    • replace:用function score替换query score
    • 其它,例如:sum、avg、max、min

function score的运行流程如下:

  • 1)根据原始条件 查询搜索文档,并且计算相关性算分,称为原始算分(query score)
  • 2)根据过滤条件,过滤文档
  • 3)符合过滤条件 的文档,基于算分函数 运算,得到函数算分(function score)
  • 4)将原始算分 (query score)和函数算分 (function score)基于运算模式做运算,得到最终结果,作为相关性算分。
json 复制代码
GET /索引名/_search
{
  "query": {
    "function_score": { // 原始查询,可以是任意条件
      "query": {
        "match": {
          "查询条件": "查询值"
        }
      },
      "functions": [ 
        {
          "filter": {
            "term": {
              "查询条件": "查询值"
            }
          },
          "weight": 10 // 算分权重为2
        }
      ],
      "boost_mode": "sum" // 加权模式,求和
    }
  }
}

(b)、bool query

布尔查询是一个或多个查询子句的组合,每一个子句就是一个子查询。子查询的组合方式有:

  • must:必须匹配每个子查询,类似"与"
  • should:选择性匹配子查询,类似"或"
  • must_not:必须不匹配,不参与算分,类似"非"
  • filter:必须匹配,不参与算分

搜索时,参与打分的字段越多,查询的性能也越差。因此这种多条件查询时,建议这样做:搜索框的关键字搜索,是全文检索查询,使用must查询,参与算分;其它过滤条件,采用filter查询。不参与算分。

bash 复制代码
GET /索引名/_search
{
  "query": {
     
    "bool": {
      "must": [
        {
          "term": {
          	"查询条件": "查询值"
          }
        }
      ],
      "should": [
        {
          "term": {
          	"查询条件": "查询值"
          }
        },
        {
          "term": {
        	  "查询条件": "查询值"
          }
        }
      ],
      "filter": [
        {
          "range": {
            "price": {
              "gte": 100,
              "lte": 2000
            }
          }
        }
      ]
    }
  }
}

三、Java客户端操作ES

以下是demo的数据库建表语句,使用es,建立索引很重要,如何完成es索引建立,需要考虑清楚,这个字段是什么,字段类型是什么,是否需要参与查询,是否需要分词,分词又该如何分词。

less 复制代码
CREATE TABLE `tb_hotel` (
  `id` bigint(20) NOT NULL COMMENT '酒店id',
  `name` varchar(255) NOT NULL COMMENT '酒店名称;例:7天酒店',
  `address` varchar(255) NOT NULL COMMENT '酒店地址;例:航头路',
  `price` int(10) NOT NULL COMMENT '酒店价格;例:329',
  `score` int(2) NOT NULL COMMENT '酒店评分;例:45,就是4.5分',
  `brand` varchar(32) NOT NULL COMMENT '酒店品牌;例:如家',
  `city` varchar(32) NOT NULL COMMENT '所在城市;例:上海',
  `star_name` varchar(16) DEFAULT NULL COMMENT '酒店星级,从低到高分别是:1星到5星,1钻到5钻',
  `business` varchar(255) DEFAULT NULL COMMENT '商圈;例:虹桥',
  `latitude` varchar(32) NOT NULL COMMENT '纬度;例:31.2497',
  `longitude` varchar(32) NOT NULL COMMENT '经度;例:120.3925',
  `pic` varchar(255) DEFAULT NULL COMMENT '酒店图片;例:/img/1.jpg',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

这是根据以上问题建立的索引,其中copy_to是将多个字段组合进行查询,有copy to的字段会被复制到all中,通过all进行查询。

json 复制代码
PUT /hotel
{
  "mappings": {
    "properties": {
      "id": {
        "type": "keyword"
      },
      "name":{
        "type": "text",
        "analyzer": "ik_max_word",
        "copy_to": "all"
      },
      "address":{
        "type": "keyword",
        "index": false
      },
      "price":{
        "type": "integer"
      },
      "score":{
        "type": "integer"
      },
      "brand":{
        "type": "keyword",
        "copy_to": "all"
      },
      "city":{
        "type": "keyword",
        "copy_to": "all"
      },
      "starName":{
        "type": "keyword"
      },
      "business":{
        "type": "keyword"
      },
      "location":{
        "type": "geo_point" //地理坐标,包括包括精度和维度。
      },
      "pic":{
        "type": "keyword",
        "index": false
      },
      "all":{
        "type": "text",
        "analyzer": "ik_max_word"
      }
    }
  }
}

1、对索引进行操作

  • 首先注册服务,初始化RestHighLevelClient;
  • 通过xxxindexrequest,进行操作,xxx可以是Creat,Delete,GET,
  • 准备DSL,只用在创建的时候需要;
  • 然后通过RestHighLevelClient.indeces.xxx(),进行对应的操作,xxx是creat、exist、delect。
java 复制代码
    /**
     * 创建索引
     * @throws IOException
     */
    @Test
    void createHotelIndex() throws IOException {
        // 1. Create Request object
        CreateIndexRequest request = new CreateIndexRequest("hotel");
        // 2. Prepare request parameters: DSL statement
        request.source(MAPPING_TEMPLATE, XContentType.JSON);
        // 3. Send request
        highClient.indices().create(request,RequestOptions.DEFAULT);
        System.out.println("Index created successfully");
    }

    /**
     * 删除索引
     * @throws IOException
     */
    @Test
    void deleteIndex() throws IOException{
        DeleteIndexRequest request = new DeleteIndexRequest("hotel");
        //请求
        highClient.indices().delete(request,RequestOptions.DEFAULT);
    }

    /**
     * 获取索引
     * 判断索引是否存在
     * @throws IOException
     */
    @Test
    void existIndex() throws IOException{
        GetIndexRequest request = new GetIndexRequest("hotel");
        GetIndexResponse getIndexResponse = highClient.indices().get(request, RequestOptions.DEFAULT);
        System.out.println(Arrays.toString(getIndexResponse.getIndices()));
        boolean exists = highClient.indices().exists(request, RequestOptions.DEFAULT);
        System.out.println(exists ? "索引存在":"索引不存在");
    }

2、对文本进行操作:

如果需要进行序列化和反序列化操作,用fastjson就行。

  • 初始化RestHighLevelClient;
  • 创建XxxRequest。XXX是Index、Get、Update、Delete、Bulk;
  • 准备参数(Index、Update、Bulk时需要);
  • 发送请求。调用RestHighLevelClient#.xxx()方法,xxx是index、get、update、delete、bulk
  • 解析结果(Get时需要)。
java 复制代码
    /**
     * 创建文档 + 获取文档数据
     */
    @Test
    void CreateDoc() throws IOException {
        //根据ID查询信息,并且完成序列化
        Hotel hotel = hotelService.getById(47066L);
        HotelDoc hotelDoc = new HotelDoc(hotel);
        JSON.toJSONString(hotelDoc);

        //发送请求
        GetRequest request = new GetRequest("hotel").id("1");
        GetResponse documentFields = highClient.get(request, RequestOptions.DEFAULT);
        System.out.println(documentFields.getSourceAsString());
    }

    /**
     * 删除文档
     * @throws IOException
     */
    @Test
    void DeleteDoc() throws IOException{
        // 1.准备Request
        DeleteRequest request1 = new DeleteRequest("hotel", "1");
        // 2.发送请求
        System.out.println(highClient.delete(request1, RequestOptions.DEFAULT).getResult());
    }

    /**
     * 增量修改
     * 全量修改:字段数据一一对应即可
     * @throws IOException
     */
    @Test
    void testUpdateDocument() {
        // 1.准备Request
        UpdateRequest request = new UpdateRequest("hotel", "1");
        // 2.准备请求参数
        request.doc(
                "price", "999",
                "starName", "钻"
        );
        // 3.发送请求
        try {
            highClient.update(request, RequestOptions.DEFAULT);
        } catch (IOException e) {
            System.out.println(JSON.toJSONString(e.getLocalizedMessage()));
        }
    }

    /**
     * 批量导入
     * @throws IOException
     */
    @Test
    void testBulkRequest(){
        //查询数据
        List<Hotel> hotelList = hotelService.list();

        //1、创建Request
        BulkRequest request = new BulkRequest();
        //2、准备参数
        for (Hotel hotel : hotelList) {
            //转换成为文档类型
            HotelDoc hotelDoc = new HotelDoc(hotel);
            IndexRequest indexRequest = new IndexRequest("hotel")
                    .id(hotelDoc.getId().toString())
                    .source(JSON.toJSONString(hotelDoc), XContentType.JSON);
            //创建新增的文档对象
            request.add(indexRequest);
        }
        //3、发送请求
        try {
            highClient.bulk(request,RequestOptions.DEFAULT);
        } catch (IOException e) {
            System.out.println(JSON.toJSONString(e.getLocalizedMessage()));
        }
    }

3、查询:

建议参考:Java中ElasticSearch的各种查询(普通,模糊,前缀,高亮,聚合,范围)_java elasticsearch博客

相关推荐
SyntaxSage6 分钟前
Ruby语言的多线程编程
开发语言·后端·golang
Andya_net24 分钟前
Spring Boot | 基于MinIO实现文件上传和下载
java·spring boot·后端
DevOpsDojo27 分钟前
Bash语言的并发编程
开发语言·后端·golang
续亮~28 分钟前
Kafka的Partition故障恢复机制与HW一致性保障-Epoch更新机制详解
java·分布式·后端·kafka
╰つ゛木槿37 分钟前
Springboot启动报错:Failed to start bean ‘documentationPluginsBootstrapper‘
java·spring boot·后端
计算机学姐43 分钟前
基于SpringBoot的斯诺克球馆预约购票管理系统
java·vue.js·spring boot·后端·mysql·spring·intellij-idea
CyberScriptor1 小时前
Elixir语言的正则表达式
开发语言·后端·golang
兮动人1 小时前
SpringBoot数据层解决方案
java·spring boot·后端
BinaryBardC1 小时前
F#语言的数据结构
开发语言·后端·golang
SyntaxSage2 小时前
Swift语言的软件工程
开发语言·后端·golang