大数据面试题之ElasticSearch(1)

目录

ElasticSearch介绍

ElasticSearch架构

ElasticSearch深度分页

ElasticSearch调优手段有哪些

ElasticSearch脑裂了怎么办

ElasticSearch的倒排索引

ElasticSearch如何实现master选举

ElasticSearch的搜索过程说下

ElasticSearch如何在并发情况下保证读写一

ElasticSearch的常用分词器有哪些,有什么优缺点


ElasticSearch介绍

Elasticsearch 是一个开源的、分布式的搜索引擎和分析引擎,建立在Apache Lucene库之上。它被广泛用于全文检索、结构化搜索、数据分析以及实时应用中。Elasticsearch 的核心特性包括:

  1. 分布式架构:Elasticsearch 设计为分布式系统,可以轻松地在多台服务器上扩展,处理大量数据并支持高并发请求。它自动管理数据的分片(sharding)和复制(replication),确保数据的可靠性和搜索性能。
  2. 全文搜索:利用倒排索引技术,Elasticsearch 提供了快速且高效的全文本搜索能力,支持复杂的查询语句,包括模糊匹配、短语匹配、同义词处理等。
  3. 实时分析:通过实时索引和近实时搜索功能,Elasticsearch 能够迅速地对新数据进行索引,并几乎立即可用作搜索和分析,非常适合实时日志分析和监控场景。
  4. RESTful API:所有的操作都可以通过其直观的RESTful API进行,这意味着你可以使用任何支持HTTP协议的语言来与之交互,非常便于集成和开发。
  5. 数据灵活性:Elasticsearch 支持JSON文档作为数据存储的基本单元,这种灵活性使得它能够处理半结构化和非结构化的数据,适合现代应用中多样化的数据类型。
  6. 聚合与分析:强大的聚合框架允许用户执行复杂的数据分析操作,如分桶(bucketing)、度量(metric)计算、管道聚合(pipeline aggregations)等,这对于生成报表和进行数据洞察非常有用。
  7. 安全性与监控:Elastic Stack(原ELK Stack,包含Elasticsearch、Logstash、Kibana)提供了X-Pack插件,增加了安全认证、授权、监控和报警等功能,确保系统的安全性和稳定性。
  8. Kibana集成:Elasticsearch 经常与Kibana一起使用,Kibana是一个可视化工具,可以帮助用户创建图表、仪表盘,进行数据探索和可视化分析,使得数据分析结果更加直观易懂。

综上所述,Elasticsearch 不仅是一个高性能的搜索引擎,也是一个强大的数据分析平台,适用于从简单的网站搜索到复杂的企业级应用的各种场景。

ElasticSearch架构

Elasticsearch 的架构设计围绕着高度可扩展性和容错性展开,主要由以下几个核心组件构成:

  1. 节点(Node):Elasticsearch 集群中的每一个运行实例称为一个节点(Node)。每个节点都存储数据、参与索引和搜索操作。节点之间通过网络通信,协同工作以实现集群功能。
  2. 集群(Cluster):一群节点的集合构成了一个Elasticsearch集群(Cluster)。集群由一个唯一的名称标识,默认为"elasticsearch"。所有节点必须属于同一个集群才能共享数据和负载均衡。
  3. 主节点(Master Node):在一个集群中,有一个或多个节点会被选举为主节点(Master Node)。主节点不直接存储数据,而是负责集群的管理和协调任务,比如新建或删除索引、跟踪哪些节点是集群的一部分、管理分片分配等。如果主节点失败,另一个节点会被选举为新的主节点。
  4. 数据节点(Data Node):负责存储数据和执行数据相关操作(如索引、搜索)的节点称为数据节点(Data Node)。在大型集群中,数据节点通常只负责数据处理,以优化资源使用。
  5. 索引(Index):索引是具有相似特征的文档集合。类似于传统数据库中的数据库或表的概念。每个索引都有一个唯一的名字,并且可以被分成多个分片(Shard)来分散存储和处理。
  6. 分片(Shard):索引可以被分割成多个分片,每个分片是一个独立的Lucene索引。分片有主分片(Primary Shard)和副本分片(Replica Shard)之分。主分片是原始数据的容器,而副本分片则是主分片的复制,用于提高数据的可用性和搜索性能。
  7. 副本(Replication):为了提高数据可靠性,Elasticsearch 允许为索引的每个主分片创建多个副本。这样即使某个节点或分片发生故障,数据也不会丢失,同时还能提高搜索请求的处理速度。
  8. 客户端(Client):客户端是应用程序与Elasticsearch集群交互的接口,它发送请求到集群并接收响应。客户端可以是Java客户端、HTTP REST API客户端或者是Elasticsearch提供的各种语言的客户端库。
  9. 发现模块(Discovery Module):负责节点之间的发现和选举主节点。它依赖于如Zen Discovery这样的模块来实现节点间的通信和集群状态的维护。

整个Elasticsearch架构设计得非常灵活,可以根据需要动态地添加或移除节点,调整索引的分片数量,以及设置副本策略,从而轻松应对数据量的增长和查询负载的变化。

ElasticSearch深度分页

在 Elasticsearch 中,深度分页(即请求结果集中的大量偏移量,如从第10000条记录开始获取结果)可能会导致性能问题,尤其是当涉及大量数据时。这是因为Elasticsearch为了获取指定偏移量后的结果,需要遍历跳过的所有文档,这会消耗大量的CPU资源和内存。

为了解决这个问题,Elasticsearch 提供了几种更高效的替代方案来实现深度分页:

  1. Search After:这是一种基于排序字段的分页方法。首先执行一个搜索请求,获取到第一批结果,并记住最后一个文档的排序值。然后,在下一次请求中,使用search_after参数,传入上一次请求中最后一个文档的排序值作为搜索起点。这种方法避免了需要指定from和size带来的性能开销,特别适用于连续翻页的场景。
  2. Scroll:Scroll API 适合一次性获取大量数据,特别是在数据视图不会频繁变化的情况下。启动一个 Scroll 会话后,Elasticsearch 会保持对当前视图的快照,允许你通过多次滚动请求来迭代所有匹配的结果。每个Scroll请求都会返回一个_scroll_id_,以及一批结果,直到没有更多结果为止。需要注意的是,Scroll会话是有生命周期的,过期后会失效。
  3. Pit(Point in Time) API:这是Elasticsearch 7.0引入的一个新特性,类似于Scroll API,但提供了更好的性能和灵活性。PIT API允许你打开一个索引的快照视图,然后在这个快照上执行多次搜索,而不需要像Scroll那样维护一个长时间的会话。使用PIT时,你需要先创建一个点在时间的引用,然后在每次请求中带上这个引用进行查询,直到不再需要该视图时手动关闭它。

这些方法相比传统的深度分页(使用from和size参数),能够显著提高性能和用户体验,尤其是在处理大数据集时。选择哪种方法取决于具体的应用场景和需求。

ElasticSearch调优手段有哪些

1、索引设计与映射优化:

  • 合理选择分析器:根据查询需求选择合适的分析器,平衡索引速度和查询效率。
  • 使用合适的数据类型:比如,对于不需要精确排序的字段使用keyword类型代替text类型。
  • 禁用无用字段的存储:减少存储空间,提高索引速度。
  • 设置合理的副本数:平衡查询性能和数据安全性。

2、分片与副本策略:

  • 分片数量调整:过多的分片会导致内存碎片化和管理开销增大,建议单个节点上的分片数量不超过几千个。
  • 副本分布:确保副本均匀分布在各个节点上,避免数据倾斜。

3、硬件优化:

  • 内存配置:合理分配 JVM 堆内存,避免频繁GC。确保有足够的系统内存用于文件缓存。
  • 磁盘选择:使用高速磁盘(如SSD)可以显著提高I/O性能。
  • 网络配置:优化网络设置,确保足够的带宽和低延迟。

4、查询优化:

  • 使用过滤器上下文查询:对于只用于过滤的条件使用filter,避免分数计算。
  • 优化聚合操作:限制聚合的深度和范围,使用aggs的子选项如size、terminate_after限制结果集大小。
  • 缓存利用:利用请求缓存和查询结果缓存。

5、系统与配置调优:

  • 索引刷新间隔:适当增加index.refresh_interval以减少索引写入时的I/O压力。
  • 合并策略:调整index.merge.policy以优化段合并,减少磁盘I/O和提升查询速度。
  • 监控与日志:启用并监控Elasticsearch的慢日志和性能指标,及时发现并解决问题。

6、集群监控与管理:

  • 使用APM监控:集成Elastic Stack的APM工具,监控应用程序和Elasticsearch的性能。
  • 热温冷架构:根据数据访问频率,设计不同的索引存储策略,例如使用ILM(索引生命周期管理)自动迁移数据至低成本存储。

7、插件与模块管理:

  • 确保安装必要的插件,同时避免不必要的插件以减少系统负担。

调优是一个持续的过程,需要根据实际应用场景、数据量和查询模式不断测试和调整。此外,保持Elasticsearch及其依赖软件的版本更新也是维持高性能的关键。

ElasticSearch脑裂了怎么办

Elasticsearch脑裂(Split-Brain)是指集群中的一部分节点无法与其他节点通信,导致集群分裂成多个独立的子集群,每个子集群都认为自己是主集群并可能独立进行写操作,从而造成数据不一致的问题。解决脑裂问题通常涉及以下几个步骤:
1、预防措施:

配置最小主节点数(discovery.zen.minimum_master_nodes):这是防止脑裂的最重要设置。这个值应该是(N/2)+1,其中N是集群中可能成为主节点的节点数。确保该值正确设置,可以避免在部分节点不可达时形成多个主节点。
2、立即识别与诊断:

使用cluster-health API检查集群状态,确认是否发生脑裂。

查看集群日志,寻找网络问题或节点故障的线索。
3、恢复通信:

确保网络问题被解决,恢复节点间的网络连接。

如果是单个或少数节点故障,考虑重启这些节点。
4、处理数据冲突:

如果脑裂期间发生了写操作,可能需要手动或通过工具(如Elasticsearch的Reindex API)来合并或选择性地恢复数据。

评估受影响的索引和文档,决定是否需要回滚到某个时间点的快照或者手动修复差异。
5、避免进一步操作:

在问题未完全解决之前,避免在集群上执行大规模写操作,以免情况复杂化。
6、集群重建:

在极端情况下,如果数据不一致严重且难以修复,可能需要从最近的完整备份恢复集群,然后重新导入自备份以来的数据变化。
7、长期策略:

定期审查和测试灾难恢复计划,包括备份与恢复策略。

采用跨数据中心部署和更高级的容错机制,如使用专用网络、改进网络架构,或部署专用的网络设备来提高网络稳定性和可靠性。

ElasticSearch的倒排索引

Elasticsearch中的倒排索引(Inverted Index)是一种数据结构,它颠覆了传统的文档到词汇的索引方式,转而采用词汇到文档的映射关系,这种设计极大地优化了全文搜索的速度和效率。下面是倒排索引的基本概念及其在Elasticsearch中的应用:
基本原理

  1. 文档分词:当文档被添加到Elasticsearch中时,首先会对其进行分析(分析过程包括分词、去除停用词等),将文本拆分成一个个词项(Term)。
  2. 创建倒排表:对于每一个词项,系统会维护一个列表,记录所有包含该词项的文档及其出现频率、位置等信息。这个列表被称为倒排列表(Posting List)。因此,倒排索引本质上是一个词项到其所在文档集合的映射。

特点与优势

  • 快速查询:查询时,Elasticsearch直接查找相关词项的倒排列表,立即知道哪些文档包含该词,无需遍历整个文档集。
  • 支持多关键词查询:通过交集、并集等操作轻松实现AND、OR逻辑查询,因为每个词项都有自己的倒排列表,容易合并这些列表来找到满足条件的文档。
  • 排序与相关度评分:倒排索引中还包含了词频、文档频率等信息,可以用于计算文档与查询的相似度,实现高效的排序。

Elasticsearch中的扩展

  • 分片与副本:Elasticsearch将数据分散存储在多个分片(Shard)中,每个分片有自己的倒排索引,同时通过副本(Replica)提高可用性和查询性能。
  • 近实时搜索(NRT):Elasticsearch提供了近乎实时的索引更新能力,文档一旦被索引就能很快被搜索到,尽管这需要一个轻微的刷新周期。
  • 压缩与缓存:为了节省空间和提高效率,倒排索引可以被压缩存储,并且Elasticsearch利用缓存技术加快频繁查询的响应速度。

倒排索引是Elasticsearch高效全文检索的核心,通过这种数据结构,Elasticsearch能够支持大规模数据集上的快速、复杂的全文搜索请求。

ElasticSearch如何实现master选举

ElasticSearch实现master选举的过程主要通过其内置的Zen Discovery机制来完成。以下是ElasticSearch实现master选举的详细步骤:
1. 节点发现

  • Zen Discovery模块:通过Ping机制来发现集群中的节点。节点使用Ping机制相互通信以了解彼此的存在。Ping机制可以基于多种传输方式,如多播(multicast)或单播(unicast)。
  • 节点ID:每个节点都有一个唯一的ID(node id),用于在集群中标识自己。

2. 主节点候选

  • 配置检查:只有配置了node.master: true的节点才能成为主节点的候选。
  • 候选节点列表:所有主节点候选节点会形成一个候选列表,用于后续的选举过程。

3. 选举过程

  • 排序:在选举过程中,每个候选节点都会将已知的候选节点列表进行排序。排序通常基于节点ID或其他可配置的规则。
  • 预选阶段:每个候选节点会向其他候选节点发送预选请求,并等待响应。如果一个节点收到了超过一半的响应,它将进入下一阶段。
  • 选举阶段:在选举阶段,每个候选节点会向其他候选节点发送选举请求,并等待响应。选举规则通常基于多数决定原则,即一个节点需要获得超过半数的投票才能成为主节点。
  • 投票规则:投票规则可能会考虑节点的健康状况、存储的数据量、负载情况等因素。同时,为了防止恶意节点滥用选举机制,ElasticSearch还采用了数据一致性检查、节点认证等安全措施。

4. 选举结果

  • 主节点确定:如果某个候选者得到了超过半数的投票,并且该节点也投票给了自己,那么它将成为新的主节点。
  • 集群状态更新:一旦新的主节点被选出,集群状态将更新,所有节点都将与新主节点通信,并遵循其指令。

5. 特殊情况处理

  • 网络分区:如果发生网络分区,Zen Discovery机制会尝试重新选举主节点,以确保集群的可用性。
  • 主节点故障:如果当前主节点发生故障,其他候选节点将自动开始新的选举过程,以选出新的主节点。

6. 配置优化

  • 最小主节点数:为了防止脑裂问题(即集群中出现多个主节点的情况),可以通过设置discovery.zen.minimum_master_nodes参数来指定最小主节点数。这个值应该设置为候选节点数的一半加一(N/2+1)。

7. 注意事项

  • 节点数量:集群中的节点数量应足够多,以确保在发生节点故障时能够成功选举出新的主节点。
  • 监控和日志:定期检查集群状态和日志,以便及时发现并解决问题。

通过以上步骤,ElasticSearch能够确保在集群中选举出一个稳定、可靠的主节点,从而维护集群的正常运行和数据的可用性。

ElasticSearch的搜索过程说下

Elasticsearch的搜索过程可以分为几个关键步骤,这些步骤共同实现了高效、实时的数据检索功能。下面是一个简化的概述:
1. 请求接收与解析

  • 当客户端(如Web应用或API请求)发送一个查询请求到Elasticsearch时,首先由某个节点(可以是任意节点,因为所有节点对搜索请求都是透明的)接收这个请求。
  • 接收节点会解析请求,提取出查询语句、过滤条件、排序需求、分页参数等信息。

2. 查询分发与执行

  • Query Parsing:解析后的查询被转换成一种结构化查询语言,便于执行。
  • Distributed Querying:解析后的查询会被广播到集群中的所有数据节点(或根据索引映射预先确定的节点)。Elasticsearch使用一种称为"Query-Then-Fetch"的策略,或者在某些场景下使用更高效的"Distributed Term Frequency"(DFS)查询模式。
  • Shard-Level Search:每个节点上的分片(shard)独立执行查询,只搜索本地数据。这意味着搜索操作在各个节点上并行执行,极大地提升了效率。

3. 结果收集与聚合

  • Partial Results:每个分片完成搜索后,将部分结果(匹配的文档ID和评分)返回给最初接收请求的节点(协调节点)。
  • Score Calculation:协调节点汇总所有分片的结果,计算最终的文档评分(如果查询需要的话),并根据请求中的排序规则对文档进行排序。
  • Aggregation:如果查询中包含了聚合(aggregations),协调节点还会执行聚合操作,对结果集进行统计分析,比如计数、平均值、百分位数等。

4. 结果返回

  • 最终排序和处理后的结果被汇总成响应,包含匹配的文档ID、分数(如果查询中请求了分数)、聚合结果等信息。
  • 协调节点将此响应返回给客户端。

5. 缓存与优化

  • Elasticsearch还会利用查询缓存来加速重复查询的响应时间。如果一个查询的执行结果已经被缓存,它可以直接从缓存中读取而不需要再次执行整个搜索流程。

注意事项

  • Elasticsearch支持复杂的查询语法,包括全文本搜索、布尔查询、范围查询、地理空间查询等,以及多种聚合类型。
  • 性能优化是搜索过程中一个重要考虑因素,包括索引设计、分片和副本策略、查询优化等。
  • Elasticsearch提供了丰富的API和工具,允许开发者细粒度地控制搜索行为和性能。

ElasticSearch如何在并发情况下保证读写一致

Elasticsearch在并发读写场景下确保数据一致性主要依靠以下几个机制:
1. 事务日志(Translog)

  • 持久化保证:Elasticsearch使用事务日志(Transaction Log)记录每次写操作,类似于数据库中的WAL(Write-Ahead Log)。在索引操作完成之前,相关信息会先写入事务日志。这样即使在写入过程中发生故障,也能从事务日志恢复,确保数据不会丢失。
  • 刷新(Refresh):默认每隔一秒(可配置),Elasticsearch会执行一次刷新操作(Refresh),将内存中的缓冲区(Buffer)数据写入新的Lucene段(Segment),同时清空缓冲区。这使得新索引的数据可以被搜索到,但此时数据尚未完全持久化到磁盘。
  • 提交(Commit):事务日志在达到一定条件(例如时间间隔或事务日志大小)时,会触发一个提交(Commit)操作,将缓冲区数据和事务日志中的信息真正持久化到磁盘上的Lucene段,并清空事务日志。这是确保数据持久化和一致性的关键步骤。

2. 版本控制(Versioning)

  • Elasticsearch为每条文档记录一个内部版本号,每次文档更新都会导致版本号递增。在并发写入时,通过对比版本号来决定写操作的成功与否,从而避免并发冲突。如果客户端尝试更新的文档版本号低于当前版本号,该操作将失败,客户端需要重新获取最新版本并重试。

3. 乐观锁(Optimistic Locking)

  • Elasticsearch采用乐观锁策略来处理并发写入。当多个写请求同时到达时,Elasticsearch假设大部分情况下不会有冲突,因此先允许写操作进行。但在提交阶段,通过版本号校验来确保写操作的一致性。如果检测到冲突,则其中一个或多个写操作会因版本冲突而失败。

4. 读写分离

  • 在读写并发较高的场景下,Elasticsearch可以通过设置副本分片来实现读写分离。主分片负责处理写操作,而副本分片则负责处理读请求,这样可以减少读写操作之间的冲突,提高系统的整体吞吐量。

5. 索引别名(Index Aliases)

  • 索引别名可以用来指向实际的索引,这样在进行索引滚动更新时,可以先创建新索引并写入新数据,待数据完全同步后再切换别名指向,这一过程对客户端是透明的,保证了读写的一致性。

综上所述,Elasticsearch通过事务日志、版本控制、乐观锁机制、读写分离以及索引别名等策略,在高并发读写场景下确保了数据的一致性和可靠性。

ElasticSearch的常用分词器有哪些,有什么优缺点

1. 标准分词器(Standard Analyzer)
优点:

  • 通用性:适用于大多数英文文本的全文搜索场景。
  • 简单高效:基于空格和标点符号进行分词,处理速度快。
  • 小写化:自动将英文文本转换为小写,有助于实现不区分大小写的搜索。

缺点:

  • 中文处理不足:对于中文文本,标准分词器会将每个汉字视为一个独立的词项,这通常不是理想的中文分词方式。

2. IK Analyzer
优点:

  • 细粒度分词:提供了细粒度和粗粒度两种分词模式(ik_smart和ik_max_word),能够满足不同场景的需求。
  • 高性能:分词效果好且性能较高,广泛应用于中文搜索场景。
  • 自定义词典:支持自定义词典,可以根据实际需求添加或修改分词规则。

缺点:

  • 依赖性强:需要手动下载并集成到ElasticSearch中,增加了部署的复杂性。

3. SmartCN Analyzer
优点:

  • 中文优化:基于Lucene的SmartCN分词器进行封装,能够较好地处理中文的复杂结构,如人名、地名、数字、日期等。
  • 内置支持:作为ElasticSearch的内置分词器之一,无需额外安装即可使用。

缺点:

  • 灵活性不足:相较于IK Analyzer等第三方分词器,SmartCN Analyzer在分词规则和自定义方面可能较为受限。

4. Jieba Analyzer
优点:

  • 准确性高:采用统计和规则的方式进行分词,具有较高的分词准确性。
  • 多领域适用:适合处理中文的特定领域文本,如新闻、微博等。

缺点:

  • 集成复杂:需要通过Java的Jython库将基于Python的Jieba分词器集成到ElasticSearch中,增加了部署难度。

5. HanLP Analyzer
优点:

  • 多语种支持:支持多语种分词,具有较高的分词准确性和多语种支持能力。
  • 深度学习技术:采用深度学习和统计的方式进行分词,能够处理复杂的语言现象。

缺点:

  • 资源消耗大:由于采用了深度学习技术,可能需要更多的计算资源和内存。

6. 自定义分词器(Custom Analyzer)
优点:

  • 高度灵活:允许用户根据具体需求定义自己的分词规则、字符过滤器和词项过滤器。
  • 适用性强:能够精确匹配特定业务场景的分词需求。

缺点:

  • 配置复杂:需要深入理解ElasticSearch的分词机制,并进行复杂的配置工作。

总结

在选择ElasticSearch的分词器时,需要根据具体的业务场景和需求来权衡各种分词器的优缺点。对于中文搜索场景,IK Analyzer和HanLP Analyzer是较为常用的选择;而对于英文或通用文本搜索场景,标准分词器或SmartCN Analyzer可能更为合适。同时,自定义分词器提供了高度的灵活性,但也需要更多的配置工作。

引用:通义千问、文心一言

相关推荐
SafePloy安策32 分钟前
ES信息防泄漏:策略与实践
大数据·elasticsearch·开源
学术搬运工38 分钟前
【珠海科技学院主办,暨南大学协办 | IEEE出版 | EI检索稳定 】2024年健康大数据与智能医疗国际会议(ICHIH 2024)
大数据·图像处理·人工智能·科技·机器学习·自然语言处理
Matrix702 小时前
HBase理论_背景特点及数据单元及与Hive对比
大数据·数据库·hbase
B站计算机毕业设计超人3 小时前
计算机毕业设计Python+大模型农产品价格预测 ARIMA自回归模型 农产品可视化 农产品爬虫 机器学习 深度学习 大数据毕业设计 Django Flask
大数据·爬虫·python·深度学习·机器学习·课程设计·数据可视化
Carl_奕然4 小时前
【大数据算法】MapReduce算法概述之:MapReduce基础模型
大数据·算法·mapreduce
Elastic 中国社区官方博客4 小时前
Elasticsearch 8.16:适用于生产的混合对话搜索和创新的向量数据量化,其性能优于乘积量化 (PQ)
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
飞翔的佩奇4 小时前
ElasticSearch:使用dsl语句同时查询出最近2小时、最近1天、最近7天、最近30天的数量
大数据·elasticsearch·搜索引擎·dsl
2301_769006784 小时前
19名专家被通报批评!国家科技重大专项评审违规!
大数据·人工智能·科技·sci·期刊·ssci
Yz98766 小时前
Kafka面试题
大数据·分布式·zookeeper·kafka·big data
爱搞技术的猫猫9 小时前
实现API接口的自动化
大数据·运维·数据库·性能优化·自动化·产品经理·1024程序员节