1 先搞懂:联合索引的本质是什么?
联合索引(也叫复合索引)是在多个列上创建的B+树索引 ,核心设计是多列字典序排序,整体结构与单列索引的B+树一致,但排序规则是关键差异。
1.1整体结构:标准B+树
联合索引依然是B+树结构,分为两层:
-
非叶子节点:存储索引列的前缀值,作为"路标"快速定位叶子节点;
-
叶子节点:存储有序的索引项,通过双向链表串联,支持范围查询。
1.2 核心差异:叶子节点的字典序排序
以联合索引idx(name, age)为例,叶子节点的排序规则是多列字典序排序:
-
先按列
name的值从小到大排序; -
当
name值相同时,再按列age的值从小到大排序; -
当所有列值都相同时,按主键值排序(保证唯一性)。
2 举个例子:idx(name, age)联合索引的底层数据
我们用具体数据还原叶子节点的排序逻辑:
| name | age | id |
|---|---|---|
| Alice | 16 | 1 |
| Bob | 17 | 2 |
| Lily | 17 | 3 |
| Linda | 18 | 4 |
| Tom | 20 | 5 |
-
叶子节点的排序顺序:
Alice 16 → Bob 17 → Lily 17 → Linda 18 → Tom 20 -
关键特征:
name相同的记录,age是有序的;但name是范围区间(如L%)时,age的有序性会被破坏。
3 和最左匹配原则的关系:为什么后面的列会失效?
最左匹配原则的本质,就是利用联合索引的字典序有序性:
-
当查询条件是
where name='Lily' and age=17时,name是等值条件,先锁定name='Lily'的区间,再利用该区间内age的有序性快速定位,因此age也能利用索引; -
当查询条件是
where name like 'L%' and age=17时,name是范围条件,锁定了L开头的所有记录区间,该区间内name不固定,age的有序性被破坏,因此age无法利用索引,只能事后过滤。
4 避坑指南:这些误区别踩
❌ 误区1:"联合索引的列顺序按区分度高的在前"
- 正解:列顺序应按查询条件的类型设计,等值条件列在前,范围条件列在后,区分度不是核心因素。
❌ 误区2:"联合索引的非叶子节点会存储所有列的值"
- 正解:非叶子节点仅存储索引列的前缀值,如
idx(name, age)的非叶子节点仅存储name的值,无需存储age,节省空间的同时缩小查询范围。
❌ 误区3:"联合索引只能用于多列查询"
- 正解:联合索引的前缀列依然是有序的,如
idx(name, age)可用于仅查询name的场景,无需单独创建单列索引。
5 结尾总结
联合索引的核心是B+树+多列字典序排序,最左匹配原则的本质就是利用这种有序性。面试时讲清楚结构和排序规则,再结合最左匹配的例子,就能拿满分!