ES 面试手册 - 技术栈

1. Elasticsearch是什么？

Elasticsearch是一个基于Lucene的搜索和分析引擎，它提供了一个分布式、多租户能力的全文搜索引擎，具有HTTP Web界面和无模式JSON文档。

1. Elasticsearch中的倒排索引是什么？

倒排索引是搜索引擎的核心结构，用于实现快速的全文搜索。在倒排索引中，词项（terms）与包含它们的文档相关联，而不是文档与词项。这样，当搜索一个词项时，可以快速找到所有包含该词项的文档。

1. Elasticsearch中的数据是如何存储的？

Elasticsearch中的数据以JSON格式存储，每个JSON对象都被视为一个文档（document）。这些文档被存储在索引（index）中，索引是一个逻辑命名空间，可以包含一个或多个类型（type，但在较新版本中，类型已被弃用，每个索引只能有一个映射）。

1. 如何设计Elasticsearch索引以支持高效的全文搜索和聚合操作？

在设计Elasticsearch索引时，需要考虑以下几点以支持高效的全文搜索和聚合操作：

使用合适的分析器（analyzer）来处理文本数据。
选择合适的数据类型来存储字段。
使用倒排索引来支持全文搜索。
使用正排索引（如fielddata）来支持聚合操作。
考虑使用嵌套（nested）或父子（parent-child）关系来建模复杂的数据结构。
1. Elasticsearch中的集群、节点、索引、文档、分片是什么？

集群：一组协同工作的Elasticsearch节点，共同提供搜索和索引功能。
节点：集群中的一个Elasticsearch实例，可以存储数据和提供服务。
索引：一个或多个文档的集合，每个文档都有一个唯一的ID。
文档：一个JSON对象，是Elasticsearch中的基本数据单元。
分片：索引的一个水平划分，每个分片都是一个独立的Lucene索引。分片允许Elasticsearch将数据分布在多个节点上，以实现水平扩展和负载均衡。
1. Elasticsearch如何处理大数据量的聚合？

当处理大数据量的聚合时，可以考虑以下策略：

使用合适的聚合类型，如terms、sum、avg等。
优化查询和聚合的性能，例如通过减少不必要的数据加载、使用合适的过滤条件等。
考虑使用Elasticsearch的分布式特性，将数据分散到多个节点上，以并行处理聚合请求。
在数据建模阶段就考虑聚合需求，设计合适的索引结构和字段类型。
1. Elasticsearch如何保证读写一致性？

Elasticsearch通过复制和分片来保证读写一致性。每个索引都被划分为多个分片，每个分片可以有多个副本。当写入数据时，Elasticsearch会将数据写入主分片，并将更改复制到副本分片。当读取数据时，可以从主分片或副本分片中读取。通过适当的副本配置和一致性级别设置，可以确保在并发读写操作下保持数据的一致性