ES集群分布式查询原理

集群分布式查询

elasticsearch的查询分成两个阶段:

  • scatter phase:分散阶段,coordinating node会把请求分发到每一个分片
  • gather phase:聚集阶段,coordinating node汇总data node的搜索结果,并处理为最终结果集返回给用户分片存储原理

集群分布式存储

当新增文档时,应该保存到不同分片,保证数据均衡,那么coordinating node如何确定数据该存储到哪个分片呢?

分片存储原理:

elasticsearch会通过hash算法来计算文档应该存储到哪个分片:

说明:

  • _routing默认是文档的id
  • 算法与分片数量有关,因此索引库一旦创建,分片数量不能修改!

新增文档的流程如下:

解读:

1)新增一个id=1的文档

2)对id做hash运算,假如得到的是2,则应该存储到shard-2

3)shard-2的主分片在node3节点,将数据路由到node3

4)保存文档

5)同步给shard-2的副本replica-2,在node2节点

6)返回结果给coordinating-node节点

相关推荐
你总是一副不开心的样子(´ . .̫ .1 天前
消息队列Kafka
分布式·kafka
沐浴露z1 天前
Kafka入门:基础架构讲解,安装与使用
java·分布式·kafka
Pastthewind1 天前
docker-compose部署ES
elasticsearch
wu~9701 天前
Kafka底层解析:可靠性与高性能原理
分布式·kafka·操作系统
兜兜风d'1 天前
RabbitMQ 发送方确认机制详解
spring boot·分布式·rabbitmq·java-rabbitmq·1024程序员节
也许是_1 天前
Spring Boot 3.X推荐Micrometer Tracing 分布式链路追踪
spring boot·分布式·后端
java_logo1 天前
Docker 部署 Elasticsearch 全流程手册
大数据·运维·mongodb·elasticsearch·docker·容器
墨香幽梦客1 天前
掌控制造脉络:电子元器件行业常用ERP系统概览与参考指南
大数据·人工智能
B站_计算机毕业设计之家1 天前
python舆情分析可视化系统 情感分析 微博 爬虫 scrapy爬虫技术 朴素贝叶斯分类算法大数据 计算机✅
大数据·爬虫·python·scrapy·数据分析·1024程序员节·舆情分析
汤姆yu1 天前
2026版基于python大数据的电影分析可视化系统
大数据·python·1024程序员节·电影分析可视化