我对现有索引技术的理解 -表与索引架构(阅读对象:架构师和高级程序员)

序言

我对表和索引的理解,整理如下,希望可以帮助到更多的人。

  • 数据在计算机存储形式是文本文件,格式文件或序列化文件 或压缩后的序列化文件,但在存储到磁盘文件之前,数据就像表格(行列)或对象(类似json)。

  • 少量数据是不需要投影的,但数据变多了以后,遍历会变慢,这时就需要索引了,索引就是为了找数据更快。

  • 索引就是数据的投影,选出经常查询用到的键和值,组成新的有序的投影表(索引表)。

    所以索引是对数据的投影,是为了更快的定位记录,写或读。

  • 可以为数据创建很多索引投影,但通常只要一个就够用了。

  • 索引本质说白了就是空间换时间。

    把一个表投影成某种索引模型,达到有序或统计法快速遍历表记录的目的,因为索引模型是要持久化的,所以也要保存到磁盘,所以就浪费空间了。

  • 不同的数据结构可以使用不同的索引结构和计算模型, 没有绝对无敌,各种场景都好用的索引技术. 不了解索引,就不懂如何优化你的数据查询.

索引架构 (Index Architecture)

  • 底层:IO 与存储(mmap、aio、持久化)
  • 中间层 索引模型 LSM索引,LMDB索引 ,哈希表索引,倒排索引,聚合索引,指纹索引,时间索引。。。
  • 中间层 1:索引的结构(AVL平衡二叉树,R树,内存缓冲、B+、跳表、hash表、字典树、前缀树、分列、分块)
  • 中间层 2:定位算法(压缩、编码算法)(哈希、AI 预测,布隆过滤器,状态的二进制压缩)
  • 上层:查询 / 定位 / 统计 / 排序

简述

  • 上层:用户查询(where age=20 and tag=vip)

  • 中间层 2(计算转化)

    age=20 → 哈希 / 前缀 → 算出索引 key

    tag=vip → 布隆 + 倒排 → 算出标签 key

  • 中间层 1(模型结构)

    去 B+ / kv表/ 分段结构里查这些 key

    定位到数据段 / 数据块

  • 底层:aio + mmap 从磁盘 / 缓存读取

详解

模块 1:索引模型结构(空间换时间的组织结构)

负责:数据怎么存、怎么分层、怎么分段、怎么组织是 "骨架"。

复制代码
B+ 树、n叉树、二叉平衡树
KV 表结构
按 KEY 区间分段(range partition)
按常用字段分组(少数列聚合 + 行段)
LSM-Tree(memtable + sstable + 分层)
前缀树索引
字段 - 标签分离索引(字段主结构 + 标签副结构)
倒排索引
R索引

一句话:这一层只管:怎么把数据排成最快能查的结构。

模块 2:Key 计算转化层(查询 → 索引 key 的过程)

负责:把用户的查询条件,算成索引能识别的 key是 "翻译官"。

哈希编码

前缀提取、路径压缩

布隆过滤器(存在性判断)

状态压缩

信息论压缩:Elias-Fano、FM-Index

学习型索引:神经网络 / 线性回归预测位置

GPU 矩阵运算加速 key 计算

一句话:这一层只管:把查询翻译成索引结构能看懂的 key。

未来 : 异构计算 (GPU)

将索引计算 offload 到 GPU 是未来的趋势。

底层:mmap + AIO 的黄金搭档

在单机高性能场景下,mmap 是神器。

优化点:使用 mmap 构建索引时,需要考虑写时复制 (Copy-on-Write) 策略,特别是在实现 LSM-Tree 时,避免大段内存拷贝。

上层:支持查询、统计、排序的灵活语义访问层。

查询,定位,统计,排序这是索引如何被上层业务使用的接口。

不仅支持基础的 CRUD,还支持复杂的范围统计、多维度排序、全文检索等高级语义。

相关推荐
SilentSamsara3 小时前
存储卷体系:EmptyDir/HostPath/PV/PVC/StorageClass 的选型决策树
服务器·微服务·云原生·容器·架构·kubernetes·k8s
AI_大白3 小时前
Python + Redis 实时行情共享:WebSocket 数据流的订阅管理与断线恢复实践
python·架构
YuanDaima20484 小时前
大语言模型生命周期全链路解析:从架构基石到高效推理
开发语言·人工智能·python·语言模型·架构·transformer
深海鱼在掘金4 小时前
从Claude Code泄露源码看工程架构:第九章 —— Claude Code 与架构的总结展望
人工智能·设计模式·架构
深海鱼在掘金4 小时前
从Claude Code泄露源码看工程架构:第六章 —— 权限系统的四道闸门与纵深防御机制
人工智能·设计模式·架构
深海鱼在掘金4 小时前
从Claude Code泄露源码看工程架构:第八章 —— MCP 接入层设计
人工智能·设计模式·架构
深海鱼在掘金4 小时前
从Claude Code泄露源码看工程架构:第七章 —— 多 Agent 协作机制与上下文隔离策略
人工智能·设计模式·架构
深海鱼在掘金4 小时前
从 Claude Code 泄露源码看工程架构:第五章 —— 工具框架的三层装配线
人工智能·设计模式·架构
刘~浪地球4 小时前
零信任架构设计与实现
安全·架构·安全架构