elasticsearch是如何进行搜索的?

请求与转发

  1. 协调节点确定参与搜索的目标索引,及其通过分片路由表确定分片
  2. 对索引所在分片中选择任意节点
  3. 并发请求多个分片的副本分片

副本选择策略

副本选择主要考虑

  • 分片健康状态:选择状态为 green 或 yellow 的副本
  • 节点负载情况:避免查询集中到少数节点
  • 响应时间与性能指标:选择最快的副本以降低响应时间

本地文档查询

  1. 分词:将查询条件进行分词和标准化

    例如,当查询条件是 "北京烤鸭很美味",经过分词后可能会被分成 "北京""烤鸭""很""美味" 等词项,这样便于后续依据这些词项去倒排索引中查找匹配的文档。

  2. segment并发查询

    1. 词项(term)查找:通过倒排索引快速定位匹配文档

      倒排索引保存了每个文档中字段的词项及其对应文档 ID 列表,比如要查找包含 "烤鸭" 这个词项的文档,就可以通过倒排索引迅速定位到有哪些文档 ID 对应的文档包含该词。

    2. 计算文档评分:根据查询条件计算文档的相关性得分(如 TF-IDF、BM25)

      以 TF - IDF 为例,如果文档中某个词出现的频率高(词频高),但在整个语料库(索引中的所有文档集合)中该词比较少见(逆文档频率高),那么这个词所在的文档相关性得分就会相对较高。例如,在一个美食相关的索引中,如果 "全聚德烤鸭" 这个词在某篇介绍全聚德的文档中多次出现,而在其他文档中很少出现,那这篇文档在以 "烤鸭" 为查询词时相关性得分就会比较高。

  3. 分片级别结果收集与排序

    分片会从它的所有 Segment 中收集匹配的文档,并按相关性排序

  4. 返回查询结果:返回

    • 匹配文档的元信息(文档ID、分数等)
    • 排序字段值
    • 聚合中间结果

Segment

segment是底层储存的基本单元,每个分片就是由多个segment组成。是一个不变的、独立的倒排索引,储存了文档的字段、倒排表、储存字段以及其他索引元数据

  • 倒排索引:保存每个文档中字段的词项及其对应文档ID列表,用于快速搜索
  • 储存字段:包含文档实际数据,用于返回结果
  • 词典:包含字段所有唯一的词和元数据(如词频、位置)
  • 评分信息:保存每个词与文档的评分数据,用于计算相关性得分
  • 删除标记:用于标记哪些文档已被删除等相关状态管理

文档内容获取

  1. 协调节点对所有分片返回的文档ID和分数进行合并、排序
  2. 根据文档ID再次请求分片获取文档完整内容
  3. 返回查询的文档内容给客户端
相关推荐
武子康1 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天1 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
Elasticsearch2 天前
如何使用 Agent Builder 排查 Kubernetes Pod 重启和 OOMKilled 事件
elasticsearch
Elasticsearch3 天前
通用表达式语言 ( CEL ): CEL 输入如何改进 Elastic Agent 集成中的数据收集
elasticsearch
武子康3 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康4 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP5 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库5 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟5 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人5 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法