如何为这条sql语句建立索引：select * from table where x = 1 and y < 1 order by z;

如何为高区分度数据的SQL语句建立索引

在数据库优化中，索引是提升查询性能的关键工具。针对特定的SQL语句，例如 SELECT * FROM table WHERE x = 1 AND y < 1 ORDER BY z，在数据区分度足够高的情况下，合理设计索引可以显著减少查询时间。本文将分析这条SQL语句的特点，探讨如何为其建立高效索引，同时解答关于 filesort 和最左前缀原则的相关问题。

什么是 `filesort`？

在 MySQL 中，filesort 是执行计划中的一种操作，表示数据库需要对查询结果进行额外排序。当 SQL 语句包含 ORDER BY 子句，而数据无法通过索引直接按所需顺序返回时，数据库会将结果集加载到内存或临时文件中执行排序。这种操作会增加查询开销，尤其在结果集较大时。

例如，在没有索引的情况下，SELECT * FROM table WHERE x = 1 AND y < 1 ORDER BY z 会先筛选出符合 WHERE 条件的数据，然后按 z 排序。如果数据量大，filesort 可能成为性能瓶颈。

为什么走索引可以避免 `filesort`？

索引是一个有序的数据结构（如 B+ 树）。当索引包含 ORDER BY 中的列时，数据库可以利用索引的有序性直接返回数据，避免额外排序。这是因为：

索引中的数据已按索引列顺序存储。
如果索引覆盖查询条件和排序字段，数据库可以按索引顺序读取结果。

在我们的例子中，如果为 z 创建索引并被查询利用，数据库能按 z 的顺序直接返回数据，从而避免 filesort。

SQL语句分析

分解这条SQL语句的组成部分：

WHERE条件 ：
- x = 1：等值条件，适合作为索引前导列。
- y < 1：范围条件，影响索引选择性。
ORDER BY ：
- z：排序字段，索引可避免 filesort。
**SELECT * **：
- 返回所有列，可能需要回表，覆盖索引不适用。

在数据区分度高的情况下，x 和 y 值分布均匀，重复值少，索引效率更高，数据库可快速定位少量符合条件的行。

最左前缀原则与范围查询的影响

一个常见问题是：索引为 (x, y, z)，而 y < 1 是范围查询，根据最左前缀原则，z 是否无法走索引？

最左前缀原则

在复合索引中，数据库会从左到右匹配查询条件，只有满足最左前缀的条件才能利用索引。例如：

索引 (x, y, z) 可用于 WHERE x = 1。
也可用于 WHERE x = 1 AND y = 2。
但无法用于 WHERE y = 2（缺少 x）。

对于范围查询（如 <、>），最左前缀原则仍然适用，但范围条件会影响后续列的索引使用。具体来说：

等值条件（如 x = 1）允许数据库继续使用索引的后续列。
范围条件（如 y < 1）会导致后续列（如 z）在过滤时无法直接使用索引，因为范围查询破坏了后续列的连续性。

`z` 是否能走索引？

在 WHERE x = 1 AND y < 1 ORDER BY z 中：

x = 1 ：完全匹配索引前导列，数据库定位到 x = 1 的索引条目。
y < 1 ：范围查询在 x = 1 的基础上进一步过滤，索引仍可用于定位符合条件的行，但 y 后的列（z）无法用于过滤。
ORDER BY z ：关键在于，索引 (x, y, z) 中的数据已按 x, y, z 顺序存储。在满足 x = 1 AND y < 1 的结果集中，z 仍然是有序的，因此数据库可以直接按 z 的顺序读取数据，避免 filesort。

结论

尽管 y < 1 是范围查询，z 在过滤中无法利用索引，但由于索引整体是有序的，ORDER BY z 仍能受益于索引的有序性，避免 filesort。这在 MySQL 的 B+ 树索引中尤为明显，因为叶子节点按索引列顺序链接。

索引工作原理

数据库通过 x = 1 在索引中定位记录。
根据 y < 1 进一步过滤，范围查询在索引中高效执行。
索引中的 z 已按顺序排列，数据库直接按 z 顺序返回结果，无需排序。

注意事项

数据区分度 ：
- 若 x 区分度低（大量行满足 x = 1），索引效率下降，需调整顺序或分析分布。
- y < 1 范围过大时，性能可能受限。
回表问题 ：
- SELECT * 需回表，若瓶颈在此，可调整为查询所需列。
索引维护成本 ：
- 复合索引增加写操作开销，高并发写场景需权衡。

验证索引效果

使用 EXPLAIN 查看执行计划：

sql 复制代码

EXPLAIN SELECT * FROM table WHERE x = 1 AND y < 1 ORDER BY z;

检查：

key 是否为 idx_x_y_z。
Extra 是否无 Using filesort。

其他优化建议

调整查询 ：避免 SELECT *，只选所需列，可优化为覆盖索引。
分区表 ：数据量大且 x 或 y 有分区特征时，可结合分区表。
统计信息：确保统计信息更新，优化器选择最佳计划。

总结

在数据区分度高的情况下，为 SELECT * FROM table WHERE x = 1 AND y < 1 ORDER BY z 创建复合索引 idx_x_y_z 是高效方案。它利用等值条件、范围条件和排序字段的特点，避免 filesort，提升性能。尽管 y < 1 是范围查询，z 在过滤中无法用索引，但排序仍受益于索引有序性。通过 EXPLAIN 验证和数据分析，可进一步优化策略，确保数据库性能最优。

如何为这条sql语句建立索引：select * from table where x = 1 and y < 1 order by z;

如何为高区分度数据的SQL语句建立索引

什么是 `filesort`？

为什么走索引可以避免 `filesort`？

SQL语句分析

推荐索引

为什么选择这个索引？

最左前缀原则与范围查询的影响

最左前缀原则

`z` 是否能走索引？

结论

索引工作原理

注意事项

验证索引效果

其他优化建议

总结

如何为这条sql语句建立索引：select * from table where x = 1 and y < 1 order by z;

如何为高区分度数据的SQL语句建立索引

什么是 filesort？

为什么走索引可以避免 filesort？

SQL语句分析

推荐索引

为什么选择这个索引？

最左前缀原则与范围查询的影响

最左前缀原则

z 是否能走索引？

结论

索引工作原理

注意事项

验证索引效果

其他优化建议

总结

什么是 `filesort`？

为什么走索引可以避免 `filesort`？

`z` 是否能走索引？