es相关知识

1.这就解释了为什么我们要在创建索引的时候就确定好主分片的数量 并且永远不会改变这个数量:因为如果数量变化了,那么所有之前路由的值都会无效,文档也再也找不到了。

2.一个自定义的路由参数可以用来确保所有相关的文档------例如所有属于同一个用户的文档------都被存储到同一个分片中。我们也会在扩容设计这一章中详细讨论为什么会有这样一种需求。

3.在处理读取请求时,协调结点在每次请求的时候都会通过轮询所有的副本分片来达到负载均衡。

4.mgetbulk API 的模式类似于单文档模式。区别在于协调节点知道每个文档存在于哪个分片中。 它将整个多文档请求分解成 每个分片 的多文档请求,并且将这些请求并行转发到每个参与节点。

5.深分页问题

考虑到分页过深以及一次请求太多结果的情况,结果集在返回之前先进行排序。 但请记住一个请求经常跨越多个分片,每个分片都产生自己的排序结果,这些结果需要进行集中排序以保证整体顺序是正确的。

理解为什么深度分页是有问题的,我们可以假设在一个有 5 个主分片的索引中搜索。 当我们请求结果的第一页(结果从 1 到 10 ),每一个分片产生前 10 的结果,并且返回给 协调节点 ,协调节点对 50 个结果排序得到全部结果的前 10 个。

现在假设我们请求第 1000 页---​结果从 10001 到 10010 。所有都以相同的方式工作除了每个分片不得不产生前10010个结果以外。 然后协调节点对全部 50050 个结果排序最后丢弃掉这些结果中的 50040 个结果。

可以看到,在分布式系统中,对结果排序的成本随分页的深度成指数上升。这就是 web 搜索引擎对任何查询都不要返回超过 1000 个结果的原因。

6.一个倒排索引由文档中所有不重复词的列表构成

7.当我们 索引 一个文档,它的全文域被分析成词条以用来创建倒排索引。

  • 当你查询一个 全文 域时, 会对查询字符串应用相同的分析器,以产生正确的搜索词条列表。
  • 当你查询一个 精确值 域时,不会分析查询字符串,而是搜索你指定的精确值。

8.分析器由分词器和过滤器组成

9.如何将某个不存在的字段存储在这个数据结构中呢?无法做到!简单的说,一个倒排索引只是一个 token 列表和与之相关的文档信息,如果字段不存在,那么它也不会持有任何 token,也就无法在倒排索引结构中表现。

10.因为 match 查询必须查找两个词( ["brown","dog"] ),它在内部实际上先执行两次 term 查询,然后将两次查询的结果合并作为最终结果输出。为了做到这点,它将两个 term 查询包入一个 bool 查询中,详细信息见 布尔查询

11.控制精度,牛,还有这种操作。

12.目前为止,可能已经意识到多词 match 查询只是简单地将生成的 term 查询包裹在一个 bool 查询中。如果使用默认的 or 操作符,每个 term 查询都被当作 should 语句,这样就要求必须至少匹配一条语句

相关推荐
乐世东方客4 小时前
Kafka使用Elasticsearch Service Sink Connector直接传输topic数据到Elasticsearch
分布式·elasticsearch·kafka
丁学文武13 小时前
Mac 安装ElasticSearch和Kibana详细教程
elasticsearch·macos·langchain·jenkins
risc12345614 小时前
【Elasticsearch】TF-IDF 和 BM25相似性算法
elasticsearch
不像程序员的程序媛1 天前
es按时间 小时聚合
java·前端·elasticsearch
G皮T2 天前
【Elasticsearch】文档迁移(Reindex)
大数据·elasticsearch·搜索引擎·全文检索·文档·reindex·文档迁移
安大小万2 天前
Git的命令大全
大数据·git·elasticsearch·团队开发·个人开发
Elastic 中国社区官方博客2 天前
使用 Elasticsearch 提升 Copilot 能力
大数据·数据库·elasticsearch·搜索引擎·全文检索·copilot·mcp
problc2 天前
AI自动生成Git提交信息-git AI Commit
人工智能·git·elasticsearch
Riu_Peter2 天前
【技术】记一次 Docker 中的 ES 数据迁移,使用 Reindex API
elasticsearch·docker·容器