Elasticsearch 索引副本数

作者:来自 Elastic Kofi Bartlett

解释如何配置 number_of_replicas、它的影响以及最佳实践。

更多阅读:Elasticsearch 中的一些重要概念: cluster, node, index, document, shards 及 replica

想获得 Elastic 认证?查看下一期 Elasticsearch 工程师培训什么时候开始!

Elasticsearch 拥有大量新功能,能帮助你为你的使用场景构建最佳搜索解决方案。深入了解我们的示例笔记本,开始免费云试用,或立即在本地机器上尝试 Elastic。


Elasticsearch 被设计为一个分布式系统,能够处理大量数据并提供高可用性。其中一个关键特性是索引副本的概念,它由 number_of_replicas 设置控制。本文将深入探讨这个设置的细节、其影响以及如何正确配置它。

副本在 Elasticsearch 中的作用

在 Elasticsearch 中,索引是一组文档的集合,这些文档被划分到多个主分片中。每个主分片是一个独立的 Apache Lucene 索引,索引中的文档被分布在所有主分片之间。为了确保高可用性和数据冗余,Elasticsearch 允许每个分片有一个或多个副本,称为副本分片。

number_of_replicas 设置控制 Elasticsearch 为索引中的每个主分片创建多少个副本分片(副本)。默认情况下,Elasticsearch 为每个主分片创建一个副本,但可以根据系统的需求进行更改。

配置 number_of_replicas

number_of_replicas 设置可以在创建索引时配置,也可以在之后更新。以下是在创建索引时设置的方法:

复制代码
PUT /my_index
{
  "settings": {
    "number_of_replicas": 2
  }
}

在这个例子中,Elasticsearch 会为 my_index 索引中的每个主分片创建两个副本。

要更新已存在索引的 number_of_replicas 设置,可以使用 _settings API:

这个命令会将 my_index 索引更新为每个主分片有三个副本。

number_of_replicas 设置的影响

number_of_replicas 设置对 Elasticsearch 集群的性能和弹性有重大影响。以下是一些关键点需要考虑:

  1. 数据冗余和可用性 :增加 number_of_replicas 通过为每个分片创建更多副本来提高数据的可用性。如果某个节点发生故障,Elasticsearch 仍然可以从剩余节点上的副本分片提供数据。
  2. 搜索性能:副本分片可以处理读取请求,因此拥有更多副本可以通过在更多分片之间分配负载来提升搜索性能。
  3. 写入性能 :但每次写入操作都必须在每个分片副本上执行。因此,较高的 number_of_replicas 会因为需要执行更多写操作而降低索引性能。
  4. 存储需求:更多副本意味着更多的存储空间。你需要确保集群有足够的容量来存储额外的副本。
  5. 对节点故障的抗性number_of_replicas 应该根据集群中的节点数量来设置。如果副本数量大于等于节点数量,集群可以在多个节点故障的情况下仍然不丢失数据。

设置 number_of_replicas 的最佳实践

最优的 number_of_replicas 设置取决于你系统的具体需求。但以下是一些通用的最佳实践:

  • 对于单节点集群,number_of_replicas 应设置为 0,因为没有其他节点来存储副本。

  • 对于多节点集群,number_of_replicas 应至少设置为 1,以确保数据冗余和高可用性。

  • 如果搜索性能是优先考虑的目标,可以考虑增加 number_of_replicas。但要注意与写入性能和存储需求之间的权衡。

  • 始终确保你的集群有足够的容量来存储额外的副本。

更多阅读:

原文:Elasticsearch Index Number_of_Replicas - Elasticsearch Labs

相关推荐
deeper_wind几秒前
MySQL数据库基础(小白的“升级打怪”成长之路)
linux·数据库·mysql
加勒比海涛10 分钟前
Spring Cloud Gateway 实战:从网关搭建到过滤器与跨域解决方案
数据库·redis·缓存
belldeep14 分钟前
java:如何用 JDBC 连接 TDSQL 数据库
java·数据库·jdbc·tdsql
大数据CLUB2 小时前
基于spark的航班价格分析预测及可视化
大数据·hadoop·分布式·数据分析·spark·数据可视化
格调UI成品2 小时前
预警系统安全体系构建:数据加密、权限分级与误报过滤方案
大数据·运维·网络·数据库·安全·预警
reddingtons5 小时前
Adobe Firefly AI驱动设计:实用技巧与创新思维路径
大数据·人工智能·adobe·illustrator·photoshop·premiere·indesign
G皮T6 小时前
【Elasticsearch】全文检索 & 组合检索
大数据·elasticsearch·搜索引擎·全文检索·match·query·组合检索
心平愈三千疾7 小时前
通俗理解JVM细节-面试篇
java·jvm·数据库·面试
我科绝伦(Huanhuan Zhou)9 天前
Oracle|Oracle SQL*Plus 配置上下翻页功能
数据库·sql·oracle
Cachel wood9 天前
Spark教程6:Spark 底层执行原理详解
大数据·数据库·分布式·计算机网络·spark