Java八股文——MySQL「性能调优篇」

MySQL的EXPLAIN有什么作用?

面试官您好,EXPLAIN命令是我在进行SQL性能优化时,使用最频繁、也最重要的一个工具

它的核心作用可以一句话概括:模拟MySQL的查询优化器来执行一条SQL语句,并向我们展示出它最终决定采用的"执行计划"(Execution Plan)。

通过EXPLAIN,我们可以在不真正执行查询的情况下,就能"洞察"到MySQL内部打算如何处理我们的SQL。这就像我们拿到了一份"作战地图",可以清晰地看到:

  • 查询会访问哪些表?
  • 访问的顺序是怎样的?
  • 是否使用了索引?如果用了,是哪个索引?
  • 数据是如何被扫描和过滤的?
  • 是否存在一些潜在的性能瓶颈,比如全表扫描、文件排序等?
如何使用?

非常简单,只需要在我们的SELECT, UPDATE, DELETE, INSERT等语句前,加上EXPLAIN关键字即可。

sql 复制代码
EXPLAIN SELECT * FROM users WHERE age > 25 ORDER BY create_time;
如何解读EXPLAIN的输出?------ 关注核心字段

EXPLAIN的输出结果是一张表,里面包含了很多列。在进行性能分析时,我会重点关注以下几个最关键的字段

  • 1. type (访问类型) ------ 这是最重要的字段,没有之一

    • 它描述了MySQL是如何查找表中数据的。它的性能从好到坏,依次是:
      • system > const > eq_ref > ref > range > index > ALL
    • 我们的优化目标 :至少要让查询达到 range 级别,最好的情况是 refeq_ref
    • ALL :这是一个灾难信号 ,它表示MySQL正在进行全表扫描 。如果在大表上看到ALL,就必须立刻进行优化,通常是需要添加合适的索引。
  • 2. possible_keyskey

    • possible_keys:显示MySQL认为可能可以用于这个查询的索引列表。
    • key:显示MySQL最终决定使用 的那个索引。如果这一列是NULL,就说明没有使用任何索引。
    • 作用:这两列可以帮助我们判断我们设计的索引是否被优化器采纳了。
  • 3. key_len (索引长度)

    • 它表示实际使用了索引的字节数 。这个值可以帮助我们判断联合索引被利用了多少。
    • 作用 :比如,一个联合索引(a, b, c),如果key_len只等于a列的长度,就说明查询只用到了索引的第一个前缀。我们可以通过计算来判断联合索引是否被充分利用。
  • 4. rows (预估扫描行数)

    • 这是优化器估算的,为了找到目标数据,需要扫描的行数。
    • 作用 :这个值越小越好。如果这个值非常大,即使type不是ALL,也可能意味着索引的区分度不高,查询效率低下。
  • 5. Extra (额外信息) ------ 包含了大量的"坏味道"

    • 这一列提供了非常多关于查询优化的重要提示。如果看到以下这些值,通常都意味着需要进行优化:
      • Using filesort :这是一个严重的性能问题 。它表示MySQL无法利用索引来完成排序(ORDER BY),只能在内存或磁盘上进行额外的文件排序操作。
      • Using temporary :这同样是一个性能瓶颈 。它表示MySQL为了处理查询(比如GROUP BY),需要创建一个临时表
      • Using where :表示在存储引擎层返回数据后,MySQL的Server层还需要进行额外的WHERE条件过滤 。如果配合 Using index 出现,说明索引下推(ICP)生效了,是好事。但如果单独出现,可能意味着索引利用不充分。
    • 最好的情况
      • Using index :这是一个绝佳的信号 ,它表示查询命中了 "覆盖索引"。MySQL无需回表,只通过扫描索引树就获取了所有需要的数据,性能是最佳的。

总结一下EXPLAIN是MySQL提供给我们的一个强大的"X光机"。在编写任何可能涉及性能问题的SQL时,我都会先用EXPLAIN来"透视"一下它的执行计划,通过解读type, key, rows, Extra等关键指标,来诊断并优化潜在的性能瓶瓶颈。这是一个数据库开发和运维人员必须掌握的核心技能。


给你张表,发现查询速度很慢,你有哪些解决方案

面试官您好,当遇到一个慢查询问题时,我会遵循一个系统性的排查和优化流程,从最简单、成本最低的SQL和索引层面入手,逐步深入到更复杂的架构层面。

我的优化思路,大致可以分为以下几个层次:

第一层:诊断与分析 ------ "找到问题的根源"

这是所有优化的起点。首先,我需要准确地定位到是哪条SQL慢,以及它为什么慢。

  1. 开启并分析慢查询日志(Slow Query Log) :我会配置slow_query_loglong_query_time,来捕获所有执行时间超过阈值的SQL,这是发现慢查询最直接的手段。
  2. 使用EXPLAIN分析执行计划 :我会对定位到的慢SQL,立即执行EXPLAIN命令。这是最核心的诊断工具 。我会重点关注:
    • type :是不是ALL(全表扫描)。
    • key:是否用上了正确的索引。
    • rows:预估扫描的行数是不是过大。
    • Extra :是否出现了Using filesort(文件排序)或Using temporary(临时表)这样的性能杀手。
第二层:SQL与索引层面的优化 ------ "成本最低、见效最快"

在分析出问题后,我首先会尝试在SQL和索引层面进行优化,因为这通常是成本最低、改动最小的。

  1. 索引优化

    • 创建合适的索引 :根据EXPLAIN的结果,如果发现是全表扫描,我会为WHERE子句、JOIN的关联字段、ORDER BY的排序列创建或调整索引
    • 设计高效的联合索引 :对于多条件的查询,我会优先创建联合索引,并遵循"区分度高、常用、等值查询的列放前面"的原则来设计字段顺序。
    • 利用覆盖索引 :我会尝试通过调整索引,让查询命中覆盖索引,从而彻底避免回表,这是巨大的性能提升。
  2. SQL语句改写 (避免索引失效)

    • 我会严格检查SQL写法,确保没有触犯索引失效 的规则,比如:
      • 不在索引列上使用函数或进行计算。
      • 避免隐式类型转换。
      • LIKE查询保证是右模糊('abc%')。
      • 谨慎使用OR!=
  3. 查询逻辑优化

    • 避免SELECT *:只查询业务真正需要的列,减少数据传输量,也更容易命中覆盖索引。
    • 优化JOIN查询 :确保遵循"小表驱动大表"的原则,并且被驱动表的关联字段上必须有索引。如果业务允许,甚至可以考虑通过冗余字段 来消除JOIN
    • 优化深分页问题 :对于LIMIT offset, count这样的大偏移量分页,将其改写成基于"书签"的查询,比如WHERE id > (last_page_max_id) LIMIT count,效率会高得多。
第三层:数据库与表结构层面的优化 ------ "当单表成为瓶颈"

如果SQL和索引层面已经优化到极致,但性能依然不达标,那可能就是表本身的设计或数据量出了问题。

  1. 表结构优化
    • 如果一个表字段过多,我会考虑进行垂直拆分,将冷、热数据分离到不同的表中,减小核心表的大小。
  2. 分库分表
    • 当单表的数据量达到千万甚至上亿级别,读写压力巨大时,就需要进行水平拆分。将一张大表,按照某个规则(如用户ID哈希、时间范围等)切分到多个表甚至多个数据库实例中,将压力分散开。
第四层:架构层面的优化 ------ "引入外部力量"

最后,如果数据库层面的压力依然很大,我们就需要跳出数据库,从整个应用架构来思考。

  • 引入缓存
    • 我会使用Redis等缓存技术,将热点数据、或者一些计算成本高但不常变化的查询结果缓存起来。
    • 大量的读请求会直接命中缓存,无需再访问数据库,这能极大地降低数据库的负载。
    • 当然,这也会引入缓存与数据库双写一致性的挑战,需要采用合适的策略(如Cache-Aside Pattern,先更新DB再删缓存)来保证。

通过这样一套从微观到宏观、层层递进的优化策略,绝大多数的慢查询问题都能得到有效的解决。


如果EXPLAIN用到的索引不正确的话,有什么办法干预吗?

面试官您好,您提出的这个问题非常好,它触及了我们在SQL优化中一个真实且可能遇到的挑战:MySQL查询优化器并非100%完美,它有时确实会"犯错",选择一个并非最优的索引。

EXPLAIN的结果显示优化器选错了索引时,我们确实有办法进行干预。最直接的办法,就是使用 FORCE INDEX

第一步:诊断病因 ------ 为什么优化器会选错?

在强制干预之前,我首先会尝试去理解为什么优化器会做出错误的选择 。这通常是由于它的成本估算出现了偏差。常见的原因有:

  1. 统计信息不准确或陈旧

    • MySQL优化器是基于表的统计信息(如行数、键的基数/区分度等)来估算成本的。
    • 如果表经过了大量的增删改操作,而统计信息又没有及时更新,那么优化器就可能基于过时的数据,做出了错误的判断。
  2. 对数据分布的理解有偏差

    • 优化器可能假设数据是均匀分布的,但实际上数据的分布可能非常不均匀(数据倾斜)。这会导致它对扫描行数的估算出现巨大偏差。
  3. 优化器自身的局限性

    • 在一些极其复杂的查询中(比如多表JOIN、复杂的子查询),优化器的成本模型可能无法完美地评估所有可能的执行路径,从而选择了一个次优的计划。
第二步:选择合适的干预手段

在了解了可能的原因后,我会根据情况选择不同的干预手段,从"治本"到"治标":

  • 1. 治本之法:更新统计信息与优化索引

    • ANALYZE TABLE :这是我的首选 。我会先尝试执行ANALYZE TABLE a_table;强制更新表的统计信息。很多时候,仅仅是更新了统计信息,优化器在下一次执行时就会"茅塞顿开",自动选择正确的索引了。这是一种最根本、最优雅的解决方案。
    • 删除或修改索引 :有时候优化器选错,是因为我们建立了一些冗余或设计不合理的索引,对它造成了"迷惑"。我会审查并删除那些不必要的索引。
    • 使用覆盖索引 :我会尝试通过修改或创建新的联合索引,让查询能够命中覆盖索引。覆盖索引的成本极低,优化器会非常倾向于选择它。
  • 2. 治标之法:使用索引提示(Index Hint)

    • 如果更新统计信息等方法都无效,而我又急需让查询恢复正常,我才会考虑使用索引提示来强制干预优化器的选择。这是一种"硬编码"的方式,需要谨慎使用。

    • FORCE INDEX (index_name)

      • 作用 :正如您所说,这是最强硬 的干预手段。它会强制MySQL优化器必须使用我们指定的这个索引,完全忽略其他所有可能的索引。
      • 用法SELECT * FROM my_table FORCE INDEX (idx_name) WHERE ...
      • 风险 :这种方式缺乏灵活性。如果未来数据分布发生变化,或者表结构、索引被修改,这个被我们"写死"的索引可能不再是最优选择,甚至变得非常糟糕,而我们代码中的FORCE INDEX却阻止了优化器去选择更好的方案。
    • USE INDEX (index_name)

      • 作用 :这是一个 "建议性" 的提示。它告诉优化器:"我建议你使用这个索引"。优化器在绝大多数情况下会听从这个建议,但如果它经过计算,发现使用这个索引的成本高得离谱(比如需要全表扫描),它仍然有权忽略这个建议。
      • 灵活性 :比FORCE INDEX稍好一些。
    • IGNORE INDEX (index_name)

      • 作用 :告诉优化器:"请忽略这个(或这些)索引",让它在剩下的索引中去做选择。当我们明确知道某个索引会误导优化器时,这个提示非常有用。
总结与实践原则

所以,当遇到优化器选错索引的情况时,我的处理流程是:

  1. 先诊断:分析为什么会选错,是不是统计信息过时了。
  2. 优先治本 :尝试通过 ANALYZE TABLE优化索引设计(如创建覆盖索引)来引导优化器做出正确选择。
  3. 最后才治标 :在万不得已的情况下,才使用索引提示USE INDEXFORCE INDEX)进行强制干预,并需要在代码中留下详细的注释,说明为什么需要这样做,以便未来的维护。

参考小林 coding