ElasticSearch之文档的存储

写在前面

本文看下文档的存储相关内容。

1:如何确定文档存储在哪个分片?

我们需要确保文档均匀分布在所有的分片中,避免某些部分机器空闲,部分机器繁忙的情况出现,想要实现均匀分布我们可以考虑如下的几种分片路由算法:

复制代码
1:round robin 轮询
    优点:简单
    缺点:数据更新、查询,删除的效率低,因为无法直接确定数据存储的分片,需要轮询,时间复杂度为O(n) 。
2:维护一个文档和分片的对应关系
    优点:简单
    缺点:需要额外维护对应关系,增加存储的成本
3:动态哈希,实时计算
    优点:简单,快速
    缺点:需要依赖于分片来计算,所以,分片数不能动态变更,除非reindex

以上三种方案,es采用的第三种,动态哈希,因为缺点相对来说,影响不是特别大,因为分片数我们完全可以事先确定好一个值,就算是确实需要修改分片数,也只需要在某次升级期间来完成即可,而前两种方案都会降低每次查询的速度,所以不可取。

动态哈希算法公式为hash(_routing)%number_of_primary_shards,这里的_routing默认是文档id,也可以通过如下方式来指定:

1:通过指定的方式,我们可以实现某些场景下某些数据放在同一个分片的需求。

2:es中修改分片数需要reindex的根本原因就在于,计算哈希依赖于分片数,如果分片数改变,路由分片的结果将会改变,如果不reindex将会导致大量文档无法查询。

具体如下:

2:更新和删除文档的流程

  • 更新文档的流程
  • 删除文档的流程

写在后面

参考文章列表

相关推荐
Tingjct9 小时前
git/gdb指令
大数据·git·elasticsearch
逸Y 仙X12 小时前
文章三十一:ElasticSearch 管道聚合
java·大数据·elasticsearch·搜索引擎·全文检索
Elastic 中国社区官方博客15 小时前
Kubernetes 可观测性:用于更安全 EKS 故障排查的 MCP 专家 agents
大数据·elasticsearch·搜索引擎·云原生·容器·kubernetes·全文检索
诸葛李16 小时前
openUBMC集成构建
大数据·elasticsearch·搜索引擎
liyunlong-java16 小时前
Elasticsearch 8.5.3 + IK 分词器 + Kibana 8.5.3 一键安装
大数据·elasticsearch·jenkins
海兰17 小时前
在 Grafana 中驾驭 ES|QL:Elasticsearch 管道查询实战指南
大数据·elasticsearch·grafana
Elasticsearch1 天前
如何使用 OpenTelemetry 和 Elastic APM 追踪 MCP 服务器工具调用
elasticsearch
Elastic 中国社区官方博客2 天前
Elastic 开源社区行为准则
大数据·elasticsearch·搜索引擎·信息可视化·全文检索
逸Y 仙X2 天前
文章二十九:ElasticSearch分桶聚合
android·大数据·elasticsearch·搜索引擎·全文检索
Highcharts.js2 天前
Highcharts React 5.0 正式版:支持 ES 模块化、组件更精简、开发体验全面升级
前端·javascript·react.js·elasticsearch·前端框架·highcharts