Elasticsearch 的检索原理主要基于其内部使用的倒排索引结构,以及诸如BM25等相关性评分算法。
查询解析
当用户提交查询时,Elasticsearch 接收和解析该请求,包括确定查询类型(如Match
、Bool
、Term
等)和相关字段。解析过程涉及以下步骤:
- 查询解析:Elasticsearch会对查询进行语法和语义分析。
- 分词处理:对查询中的文本进行分词处理,将其转换为词项,以便于与倒排索引对应的词项进行匹配。
路由查询
一旦解析完查询,Elasticsearch 将确定要访问的分片(shard):
- 分片确定:根据索引的结构,Elasticsearch确定哪些主分片和副本分片将被查询。
- 路由请求:将查询请求发送到相应的分片。
执行查询
每个分片都会在其内部执行查询,主要步骤包括:
-
词项查找:分片在倒排索引中查找与查询中指定的词项匹配的文档ID。
-
相关性评分计算:对于匹配的文档,使用相关性算法(通常是BM25)进行评分。
- 聚合计算:如果查询涉及聚合或统计信息,分片也会执行这些计算。
汇总结果
每个分片执行完查询后,会将结果(文档ID及其相关性得分)发送回协调节点(coordinating node)。接下来协调节点将处理这些结果:
-
结果合并:协调节点将来自不同分片的结果合并成一个统一的结果集,通常按得分排序。
-
聚合结果整合:如果查询中包含聚合操作,协调节点将合并各分片中的聚合结果。
返回结果
经过汇总和整合后,协调节点将最终的查询结果返回给客户端,包括相关文档及其得分信息。
缓存机制
Elasticsearch 还实现了一些缓存机制以提高效率:
-
查询缓存:对于重复的查询结果,可以被缓存,以便快速返回。
-
文档值缓存:用于加速聚合和排序的字段,通过doc values优化文档存取。