黑马es学习

es

  • [0. 基础概念](#0. 基础概念)
    • [0.1 倒排索引](#0.1 倒排索引)
    • [0.2 文档、索引](#0.2 文档、索引)
    • [0.3 与mysql对比](#0.3 与mysql对比)
  • [1 基本操作](#1 基本操作)
    • [1.1 mapping 索引库操作](#1.1 mapping 索引库操作)
    • [1.2 单个文档CRUD](#1.2 单个文档CRUD)
  • [3. DSL查询](#3. DSL查询)
    • [3.1 查询所有](#3.1 查询所有)
    • [3.2 全文检索](#3.2 全文检索)
    • [3.3 精确查询](#3.3 精确查询)
    • [3.4 复合查询-相关性得分](#3.4 复合查询-相关性得分)
    • [3.5 分页](#3.5 分页)
    • [3.6 高亮](#3.6 高亮)
    • [3.7 总结](#3.7 总结)
  • [2. RestClient](#2. RestClient)
  • [4. aggs聚合](#4. aggs聚合)
    • [4.1 bucket(分桶)聚合](#4.1 bucket(分桶)聚合)
    • [4.2 metrics聚合](#4.2 metrics聚合)
  • [5. mysql与es数据同步](#5. mysql与es数据同步)
  • [6. es集群](#6. es集群)
  • extra:es集群数据去重

黑马视频

官方使用手册

java client


0. 基础概念

es本质:一个基于Lucence开发出来的分布式搜索引擎

0.1 倒排索引

创建倒排索引后给词条创建索引,总计进行了两次查询

0.2 文档、索引

文档:一条数据记录

索引:类型相同的文档的集合

0.3 与mysql对比

交易等一致性要求高的mysql做

大范围搜索es做

1 基本操作

1.1 mapping 索引库操作

举例:注意object嵌套关系

禁止修改索引库,但是可以添加新字段

1.2 单个文档CRUD

文档查询:

_source字段下是查询到的原始文档

文档修改:

全量修改:旧的直接删除,新增改后的文档

增量修改:在旧的上面修改

3. DSL查询

dsl常见查询分类:

3.1 查询所有

3.2 全文检索

muti_match的方式能够额外指定针对哪些字段进行查询(任意一个字段包含即可)

3.3 精确查询

值是确定的,不可分割,不可分词,完全匹配

3.4 复合查询-相关性得分

相关性得分算法:(第三种 default)

es 自带的 query score:

自定义function score函数:

自定义score函数时主要确定三个部分:

  1. 哪些文档将进行加权
  2. 算分函数function score如何定义
  3. function score怎么与原始得分query score(BM25)进行加权

demo:

3.5 分页

深度分页问题:

from+size超过1w会直接报错,如果非要查一万条,不太现实,实际生产应用中会从业务层面避免查询1w条(从业务上拒绝),比如百度就是默认最多查70页,每页显示10条数据

3.6 高亮

高亮的结果解析是与_source同级的,需要额外注意:

3.7 总结

2. RestClient

将dsl语句对应到Java


上图中涉及了两个核心api:
source .query()/source()等:

QueryBuilders .各种查询query:

解析查询响应结果:

常见查询:

全文检索查询:

精确查询:




聚合:

4. aggs聚合

聚合操作与query同级,用于对文档进行统计、分析、计算(min/max/avg...)

常见聚合方式:

4.1 bucket(分桶)聚合


默认按照doc_count降序排序,如若修改排序方式:

4.2 metrics聚合

红框:

聚合名称:scoreAgg

聚合类型:stats

聚合字段:score

5. mysql与es数据同步

方案一缺点:业务之间耦合度强,调用耗时

方案二缺点:依赖mq的可靠性


demo:基于mq的实现方式

mq的消息模式:其中交换机用于将消息路由

定义模式:

然后定义绑定关系:将某个队列绑定到指定交换机、用哪个routingKey:

消息发送(两种消息:增改(公用一个key)和删(另一个key)):


消息监听与消费:

定义监听:

具体实现:


6. es集群

extra:es集群数据去重

相关推荐
武子康12 小时前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天14 小时前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
Elasticsearch2 天前
如何使用 Agent Builder 排查 Kubernetes Pod 重启和 OOMKilled 事件
elasticsearch
Elasticsearch3 天前
通用表达式语言 ( CEL ): CEL 输入如何改进 Elastic Agent 集成中的数据收集
elasticsearch
武子康3 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康4 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP4 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库4 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
西岸行者4 天前
学习笔记:SKILLS 能帮助更好的vibe coding
笔记·学习
AI周红伟4 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体