我对现有索引技术的理解 -表与索引架构（阅读对象：架构师和高级程序员）

序言

我对表和索引的理解，整理如下，希望可以帮助到更多的人。

数据在计算机存储形式是文本文件，格式文件或序列化文件或压缩后的序列化文件，但在存储到磁盘文件之前，数据就像表格（行列）或对象（类似json）。
少量数据是不需要投影的，但数据变多了以后，遍历会变慢，这时就需要索引了，索引就是为了找数据更快。
索引就是数据的投影，选出经常查询用到的键和值，组成新的有序的投影表（索引表）。

所以索引是对数据的投影，是为了更快的定位记录，写或读。
可以为数据创建很多索引投影，但通常只要一个就够用了。
索引本质说白了就是空间换时间。

把一个表投影成某种索引模型，达到有序或统计法快速遍历表记录的目的，因为索引模型是要持久化的，所以也要保存到磁盘，所以就浪费空间了。
不同的数据结构可以使用不同的索引结构和计算模型, 没有绝对无敌,各种场景都好用的索引技术. 不了解索引,就不懂如何优化你的数据查询.

负责：数据怎么存、怎么分层、怎么分段、怎么组织是 "骨架"。

复制代码

B+ 树、n叉树、二叉平衡树
KV 表结构
按 KEY 区间分段（range partition）
按常用字段分组（少数列聚合 + 行段）
LSM-Tree（memtable + sstable + 分层）
前缀树索引
字段 - 标签分离索引（字段主结构 + 标签副结构）
倒排索引
R索引

一句话：这一层只管：怎么把数据排成最快能查的结构。

负责：把用户的查询条件，算成索引能识别的 key是 "翻译官"。

哈希编码

前缀提取、路径压缩

布隆过滤器（存在性判断）

状态压缩

信息论压缩：Elias-Fano、FM-Index

学习型索引：神经网络 / 线性回归预测位置

GPU 矩阵运算加速 key 计算

一句话：这一层只管：把查询翻译成索引结构能看懂的 key。

未来 : 异构计算 (GPU)

将索引计算 offload 到 GPU 是未来的趋势。

在单机高性能场景下，mmap 是神器。

优化点：使用 mmap 构建索引时，需要考虑写时复制 (Copy-on-Write) 策略，特别是在实现 LSM-Tree 时，避免大段内存拷贝。

查询，定位，统计，排序这是索引如何被上层业务使用的接口。

不仅支持基础的 CRUD，还支持复杂的范围统计、多维度排序、全文检索等高级语义。