Elasticsearch的Index sorting 索引预排序会导致索引数据的移动吗?

索引预排序可以确保索引数据按照指定字段的指定顺序进行存储,这样在查询的时候,如果固定使用这个字段进行排序就可以加快查询效率。

我们知道数据写入的过程中,如果需要确保数据有序,可能需要在原数据的基础上插入新的数据,这样可能会涉及到数据的移动。可以想象一个链表结构,如果需要确保它的有序性,在插入新数据的时候需要对链表节点进行移动。

但是我们知道,Elasticsearch的Segment段数据是不可变的,这是为了写入的时候可以进行顺序写而提高磁盘的IO效率,同时可以提高段文件的缓存命中率,不至于一条数据被修改,整个段的数据缓存都要失效的情况。

既然段数据是不可变的,Index sorting 也就是索引预排序是怎么确保索引存储是有序的呢?

要理解这个问题就得从Elasticsearch的写入原理说起:

首先通过refresh在内存中生成新的Segment段时,由于段数据是此时生成的,很容易确保段数据是有序的,此外在段合并的过程中涉及到端数据的重整,这时候也可以确保合并后的新段的数据是有序的。因此Elasticsearch可以确保每个段的数据都是有序的,而最终查询数据的时候也是从Segment段上获取数据的,在已经排好序的Segment段上获取数据再整体排序,代价就减少了。

相关推荐
AAA修煤气灶刘哥5 小时前
MySQL 查文本查哭了?来唠唠 ES 这货:从 “啥是 ES” 到 Java 撸代码,一篇整明白!
java·后端·elasticsearch
Elasticsearch9 小时前
什么是上下文工程 (Context Engineering)?
elasticsearch
白毛大侠11 小时前
如何安全地删除与重建 Elasticsearch 的 .watches 索引
大数据·elasticsearch·jenkins
Elastic 中国社区官方博客11 小时前
Elasticsearch 的 JVM 基础知识:指标、内存和监控
java·大数据·elasticsearch·搜索引擎·全文检索
Arthurmoo12 小时前
Git常用命令大全:高效开发必备
大数据·elasticsearch·搜索引擎
SEO_juper1 天前
E-E-A-T与现代SEO:赢得搜索引擎信任的完整策略
前端·搜索引擎·seo·数字营销·seo优化·谷歌seo
华农第一蒟蒻1 天前
Elasticsearch赋能3D打印机任务统计分析
java·大数据·spring boot·后端·elasticsearch·adb·maven
cyh男1 天前
Lucene 8.7.0 版本的索引文件格式
搜索引擎·全文检索·lucene
Elasticsearch1 天前
转变数据交互:在 Amazon Bedrock AgentCore Runtime 上部署 Elastic 的 MCP 服务器以构建 agentic AI 应用
elasticsearch
AIGC小火龙果1 天前
AI代码管家:告别烂代码的自动化魔法
人工智能·经验分享·搜索引擎·自动化·aigc·ai编程