es相关知识

1.这就解释了为什么我们要在创建索引的时候就确定好主分片的数量 并且永远不会改变这个数量:因为如果数量变化了,那么所有之前路由的值都会无效,文档也再也找不到了。

2.一个自定义的路由参数可以用来确保所有相关的文档------例如所有属于同一个用户的文档------都被存储到同一个分片中。我们也会在扩容设计这一章中详细讨论为什么会有这样一种需求。

3.在处理读取请求时,协调结点在每次请求的时候都会通过轮询所有的副本分片来达到负载均衡。

4.mgetbulk API 的模式类似于单文档模式。区别在于协调节点知道每个文档存在于哪个分片中。 它将整个多文档请求分解成 每个分片 的多文档请求,并且将这些请求并行转发到每个参与节点。

5.深分页问题

考虑到分页过深以及一次请求太多结果的情况,结果集在返回之前先进行排序。 但请记住一个请求经常跨越多个分片,每个分片都产生自己的排序结果,这些结果需要进行集中排序以保证整体顺序是正确的。

理解为什么深度分页是有问题的,我们可以假设在一个有 5 个主分片的索引中搜索。 当我们请求结果的第一页(结果从 1 到 10 ),每一个分片产生前 10 的结果,并且返回给 协调节点 ,协调节点对 50 个结果排序得到全部结果的前 10 个。

现在假设我们请求第 1000 页---​结果从 10001 到 10010 。所有都以相同的方式工作除了每个分片不得不产生前10010个结果以外。 然后协调节点对全部 50050 个结果排序最后丢弃掉这些结果中的 50040 个结果。

可以看到,在分布式系统中,对结果排序的成本随分页的深度成指数上升。这就是 web 搜索引擎对任何查询都不要返回超过 1000 个结果的原因。

6.一个倒排索引由文档中所有不重复词的列表构成

7.当我们 索引 一个文档,它的全文域被分析成词条以用来创建倒排索引。

  • 当你查询一个 全文 域时, 会对查询字符串应用相同的分析器,以产生正确的搜索词条列表。
  • 当你查询一个 精确值 域时,不会分析查询字符串,而是搜索你指定的精确值。

8.分析器由分词器和过滤器组成

9.如何将某个不存在的字段存储在这个数据结构中呢?无法做到!简单的说,一个倒排索引只是一个 token 列表和与之相关的文档信息,如果字段不存在,那么它也不会持有任何 token,也就无法在倒排索引结构中表现。

10.因为 match 查询必须查找两个词( ["brown","dog"] ),它在内部实际上先执行两次 term 查询,然后将两次查询的结果合并作为最终结果输出。为了做到这点,它将两个 term 查询包入一个 bool 查询中,详细信息见 布尔查询

11.控制精度,牛,还有这种操作。

12.目前为止,可能已经意识到多词 match 查询只是简单地将生成的 term 查询包裹在一个 bool 查询中。如果使用默认的 or 操作符,每个 term 查询都被当作 should 语句,这样就要求必须至少匹配一条语句

相关推荐
青云交7 小时前
Java 大视界 -- Java 大数据在智能安防周界防范系统中的行为分析与预警精度提升(419)
elasticsearch·java 大数据·智能安防周界·flink 实时行为分析·spark mllib异常识别·化工园区安防·yolov5 人体检测
山河亦问安20 小时前
基于Kafka+ElasticSearch+MongoDB+Redis+XXL-Job日志分析系统(学习)
mongodb·elasticsearch·kafka
Elasticsearch1 天前
Elasticsearch MCP 服务器:与你的 Index 聊天
elasticsearch
tpoog1 天前
[C++项目组件]Elasticsearch简单介绍
开发语言·c++·elasticsearch
MinggeQingchun2 天前
Elasticsearch - Linux下使用Docker对Elasticsearch容器设置账号密码
elasticsearch·docker
Terio_my2 天前
Spring Boot 整合 Elasticsearch
spring boot·后端·elasticsearch
经典19922 天前
Elasticsearch 讲解及 Java 应用实战:从入门到落地
java·大数据·elasticsearch
wdfk_prog2 天前
`git rm --cached`:如何让文件“脱离”版本控制
大数据·linux·c语言·笔记·git·学习·elasticsearch
2501_929382652 天前
ES-DE 前端模拟器最新版 多模拟器游戏启动器 含游戏ROM整合包 最新版
大数据·elasticsearch·游戏
Elasticsearch2 天前
CI/CD 流水线与 agentic AI:如何创建自我纠正的 monorepos
elasticsearch