ES 概念 - 技术栈

es 概念

Elasticsearch是分布式实时搜索、实时分析、实时存储引擎，简称（ES）成立于2012年，是一家来自荷兰的、开源的大数据搜索、分析服务提供商，为企业提供实时搜索、数据分析服务，支持PB级的大数据。 -- 公司网站: https://www.elastic.co

基于Apache Lucene 开源搜索引擎，Lucene是目前公认的性能最好，最先进的，功能最全的搜索引擎

lElasticsearch使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，通过简单RESTfulAPI来隐藏Lucene的复杂性，从而让全文搜索变得简单。超出你的想像，从10亿的数据查出一条只需要1-2秒内。

l实时分析，实时搜索，可分布，可扩展到上百台PB机器。

l著名的gitHub 网站用es来搜索 20TB 的数据。包括13**亿文件与1300亿行**的代码。

l**集群：**多台Es服务器的结合的统称叫ES集群，一个集群包含多台服务器，多个节点。

l 节点：一个节点是你集群中的一个服务器，作为集群的一部分，它存储你的数据，参与集群的索引和搜索功能。

索引（Index）：
- 索引是Elasticsearch中的主要数据容器，类似于关系型数据库中的表。它是一种逻辑容器，用于组织和存储具有相似结构的文档。
- 每个索引都有一个唯一的名称，用于在Elasticsearch中标识和引用它。
- 索引定义了文档的存储方式、分片和副本配置等信息。
类型（Type）（已弃用）：
- 在较早的Elasticsearch版本中，索引内部可以包含不同类型的文档，每种类型表示不同的数据结构。例如，在一个名为"people"的索引中，可以有"employee"类型和"customer"类型。
- 类型有助于对不同类型的文档进行分类，但从Elasticsearch 7.0版本开始，多类型的支持已被弃用，一个索引只能包含一种类型的文档。
文档（Document）：
- 文档是Elasticsearch中的基本数据单元，类似于关系型数据库中的行。每个文档表示一条具体的数据记录。
- 文档由一组字段（Fields）组成，每个字段存储特定的数据。字段可以是文本、数字、日期等各种类型。
- 每个文档都有一个唯一的标识，称为文档ID。

关系：

总结：索引是数据的逻辑容器，文档是基本的数据单位，类型（现已弃用）曾用于在索引内部区分不同的数据结构。从Elasticsearch 7.0版本开始，推荐使用单一类型的索引结构来组织和存储文档。

分片（Shard）：
- 分片是将索引数据分割成更小的单元，以便分布式存储和处理数据。每个索引可以被分成多个分片。
- 每个分片是一个独立的、自包含的数据单元，它包含了索引的部分数据以及相关的索引结构信息。
- 分片允许Elasticsearch将数据分布到多个节点上，从而实现数据的并行处理和更高的吞吐量。
- 默认情况下，每个索引包含5个主分片，您可以在创建索引时指定主分片的数量。
复制分片（Replica Shard）：
- 复制分片是每个主分片的副本，它用于提高系统的可靠性和读取性能。
- 每个主分片可以有零个或多个复制分片。复制分片的数量决定了索引的冗余性和查询的并行性。
- 复制分片分布在不同的节点上，当主分片或节点发生故障时，复制分片可以继续提供服务，确保数据的可用性。
- 默认情况下，每个主分片有一个复制分片，总的数据副本数量（主分片+复制分片）为2。

关系：

总结：分片和复制分片是Elasticsearch中实现分布式存储、提高性能和可靠性的关键机制。分片将索引数据切分成小单元，实现并行处理，而复制分片提供数据的冗余和读取性能增强。它们共同构成了Elasticsearch集群的核心架构。