华为OD技术面真题 - 数据库MySQL - 2

介绍一下MySQL查询语句执行过程

执行SQL查询语句会经过上述组件和步骤，简单说说：

逻辑架构分为三层：

连接层：客户端包含的服务，包括连接处理、身份验证、确保安全性。
核心功能层：查询解析、分析、优化以及所有的内置函数解析，所有跨存储引擎的功能都在这一层实现。存储过程、触发器、视图等。
存储引擎层:负责Mysql数据的存储和提取。服务器通过存储引擎 API和存储引擎通信，屏蔽不同存储引擎差异。不同存储引擎之间不会相互通信，只会简单相应服务器的请求。

索引是一种用于快速查询和检索数据的数据结构，其本质可以看成是一种排序好的数据结构。索引本质是用空间换时间。可以把数据库理解为一本书：表数据相当于正文内容，索引相当于目录。没

有索引的情况下只能从头到尾扫表(全表扫描)，有索引: 可以直接定位数据位置。

针对不同查询查询场景有/无索引对比

优点:

大幅提升查询速度：通过索引，数据库可以大幅减少需要扫描的数据量，直接定位到符合条件的记录，从而显著加快数据检索速度
减少I/O：避免全表扫描，减少读取数据，减少磁盘I/O次数。
优化排序、分组操作：如果查询中的 ORDER BY 或 GROUP BY 子句涉及的列建有索引，数据库往往可以直接利用索引已经排好序的特性，避免额外的排序操作，从而提升性能。

缺点：

按照底层数据结构划分，索引类型可分为：

BTREE索引：MySQL 里默认和最常用的索引类型。只有叶子节点存储 value，非叶子节点只有指针和 key。存储引擎 MyISAM 和 InnoDB 实现 BTree 索引都是使用 B+Tree。
哈希索引：类似键值对的形式，一次即可定位。。
全文索引：对文本的内容进行分词，进行搜索。目前只有 CHAR、VARCHAR、TEXT 列上可以创建全文索引。一般不会使用，效率较低。
R-TREE索引：MyISAM 存储引擎支持空间数据索引(R-Tree)，可以用于地理数据存储。空间数据索引会从所有维度来索引数据，可以有效地使用任意维度来进行组合查询。

按照底层存储方式角度进行划分：

按照应用维度划分：

主要考虑点如下：

查询是否频率：索引的本质目的是加快查询效率，如果一个表需要进行高频查询，适合创建索引，偶尔进行查询，不一定需要创建索引。
考虑表数据：对于小规模数据的表，大部分情况下全表扫描比创建索引会更快。表数据大小是是否需要创建索引要考虑的一个关键因素。
字段本身是否创建索引：
1. 选择作为索引的字段需要区分度高，(区分度 = 不重复值 / 总记录数)，高区分度(用户ID、订单号等)适合创建索引，低区分度不适合创建索引。
2. 字段本身需要有where、on、join等应用场景，如果根本不会使用，区分度高也是不需要创建索引的。
字段是否经常更新：更新会导致索引频繁维护，影响写性能。经常update的字段不一定适合创建索引。
考虑联合索引：如果两个/多个字段总是一起频繁进行查询，可以考虑创建联合索引，创建联合索引字段顺序可从下面角度进行考虑：
- 最左前缀原则
- 高区分度在前
- 等值条件在前，范围条件在后
考虑覆盖索引：索引不能包含SELECT 所有查询数据时，在InnoDB中二级索引定位到具体数据需要回表查询主键索引，获取全部数据，再返回需要的数据。如果二级索引能包含所有需要查询的数据，则不需要进行回表查询。

减少请求的数据量
- 只选择必须要列：SELECT 只选择必要的字段，尽量避免使用SELECT *
- 只返回必要的行：使用LIMIT语句来限制返回的数据。
- 缓存重复查询数据：使用缓存可以避免在数据库中进行查询，特别在要查询的数据经常被重复查询时，缓存带来的查询性能提升将会是非常明显的。
减少MySQL服务器扫描的行数
1. 最有效的方式使用索引来减少扫描行数。对于不同查询场景创建合适的索引。
2. 当表数据量比较大时：针对查询场景考虑对表进行分库分表，限制查询数据量。
避免使用大查询：一个大查询如果一次性执行的话，可能一次锁住很多数据、占满整个事务日志、耗尽系统资源、阻塞很多小的但重要的查询。可考虑再应用层代码进行大查询拆分执行。
避免大连接查询：将一个大连接查询分解成对每一个表进行一次单表查询，然后将结果在应用程序中进行关联。