ElasticSearch之文档的存储

写在前面

本文看下文档的存储相关内容。

1:如何确定文档存储在哪个分片?

我们需要确保文档均匀分布在所有的分片中,避免某些部分机器空闲,部分机器繁忙的情况出现,想要实现均匀分布我们可以考虑如下的几种分片路由算法:

复制代码
1:round robin 轮询
    优点:简单
    缺点:数据更新、查询,删除的效率低,因为无法直接确定数据存储的分片,需要轮询,时间复杂度为O(n) 。
2:维护一个文档和分片的对应关系
    优点:简单
    缺点:需要额外维护对应关系,增加存储的成本
3:动态哈希,实时计算
    优点:简单,快速
    缺点:需要依赖于分片来计算,所以,分片数不能动态变更,除非reindex

以上三种方案,es采用的第三种,动态哈希,因为缺点相对来说,影响不是特别大,因为分片数我们完全可以事先确定好一个值,就算是确实需要修改分片数,也只需要在某次升级期间来完成即可,而前两种方案都会降低每次查询的速度,所以不可取。

动态哈希算法公式为hash(_routing)%number_of_primary_shards,这里的_routing默认是文档id,也可以通过如下方式来指定:

1:通过指定的方式,我们可以实现某些场景下某些数据放在同一个分片的需求。

2:es中修改分片数需要reindex的根本原因就在于,计算哈希依赖于分片数,如果分片数改变,路由分片的结果将会改变,如果不reindex将会导致大量文档无法查询。

具体如下:

2:更新和删除文档的流程

  • 更新文档的流程
  • 删除文档的流程

写在后面

参考文章列表

相关推荐
和科比合砍81分14 小时前
ES模块(ESM)、CommonJS(CJS)和UMD三种格式
大数据·elasticsearch·搜索引擎
AAA修煤气灶刘哥1 天前
MySQL 查文本查哭了?来唠唠 ES 这货:从 “啥是 ES” 到 Java 撸代码,一篇整明白!
java·后端·elasticsearch
Elasticsearch1 天前
什么是上下文工程 (Context Engineering)?
elasticsearch
白毛大侠1 天前
如何安全地删除与重建 Elasticsearch 的 .watches 索引
大数据·elasticsearch·jenkins
Elastic 中国社区官方博客1 天前
Elasticsearch 的 JVM 基础知识:指标、内存和监控
java·大数据·elasticsearch·搜索引擎·全文检索
Arthurmoo1 天前
Git常用命令大全:高效开发必备
大数据·elasticsearch·搜索引擎
华农第一蒟蒻2 天前
Elasticsearch赋能3D打印机任务统计分析
java·大数据·spring boot·后端·elasticsearch·adb·maven
Elasticsearch2 天前
转变数据交互:在 Amazon Bedrock AgentCore Runtime 上部署 Elastic 的 MCP 服务器以构建 agentic AI 应用
elasticsearch
赤月幼狼2 天前
elasticsearch学习(五)文档CRUD
学习·elasticsearch
在未来等你2 天前
Elasticsearch面试精讲 Day 8:聚合分析与统计查询
大数据·分布式·elasticsearch·搜索引擎·面试