mysql 八股文 - 技术栈

此时在items表中，id为100的那条数据就被我们锁定了，其它的要执行select price from items where id=100 for update的事务必须等本次事务提交之后才能执行。这样我们可以保证当前的数据不会被其它事务修改。MySQL有个问题是select...for update语句执行中所有扫描过的行都会被锁上，因此在MySQL中用悲观锁务必须确定走了索引，而不是全表扫描，否则将会将整个数据表锁住。

乐观锁：乐观锁相对悲观锁而言，它认为数据一般情况下不会造成冲突，所以在数据进行提交更新的时候，才会正式对数据的冲突与否进行检测，如果发现冲突了，则让返回错误信息，让用户决定如何去做。

利用数据版本号（version）机制是乐观锁最常用的一种实现方式。一般通过为数据库表增加一个数字类型的 "version" 字段，当读取数据时，将version字段的值一同读出，数据每更新一次，对此version值+1。当我们提交更新的时候，判断数据库表对应记录的当前版本信息与第一次取出来的version值进行比对，如果数据库表当前版本号与第一次取出来的version值相等，则予以更新，否则认为是过期数据，返回更新失败。

聚簇索引与非聚簇索引区别

数据库表的索引从数据存储方式上可以分为聚簇索引和非聚簇索引两种。"聚簇"的意思是数据行被按照一定顺序一个个紧密地排列在一起存储。我们熟悉的InnoDB和MyISAM两大引擎，InnoDB的默认数据结构是聚簇索引，而MyISAM是非聚簇索引。

聚簇索引 : 表的数据行都存放在索引树的叶子页中。无法把数据行放到两个不同的地方，所以一张表只允许有一个聚簇索引。InnoDB的聚簇索引实际上是将索引和数据保存中同一个B-Tree中。InnoDB通过主键聚集数据，如果没有定义主键，InnoDB会选择一个唯一的的非空索引代替。如果没有这样的索引，InnoDB会隐式定义一个主键来作为聚簇索引。

非聚簇索引（NoClustered Index），又叫二级索引。二级索引的叶子节点中保存的不是指向行的物理指针，而是行的主键值。当通过二级索引查找行，存储引擎需要在二级索引中找到相应的叶子节点，获得行的主键值，然后使用主键去聚簇索引中查找数据行，这需要两次查找。

聚簇索引的叶子节点存放的是主键值和数据行，支持覆盖索引；二级索引的叶子节点存放的是主键值或指向数据行的指针。

由于节子节点(数据页)只能按照一颗B+树排序，故一张表只能有一个聚簇索引。辅助索引的存在不影响聚簇索引中数据的组织，所以一张表可以有多个辅助索引

参考：Mysql中聚簇索引和非聚簇索引的区别详解

B+tree 与 B-tree区别

B树（B-tree）是一种树状数据结构，它能够存储数据、对其进行排序并允许以O(log n)的时间复杂度运行进行查找、顺序读取、插入和删除的数据结构。B树，概括来说是一个节点可以拥有多于2个子节点的二叉查找树。

B+树是对B树的一种变形树，它与B树的差异在于：

有k个子结点的结点必然有k个关键码。
非叶结点仅具有索引作用，跟记录有关的信息均存放在叶结点中。
树的所有叶结点构成一个有序链表，可以按照关键码排序的次序遍历全部记录。

B+ 树的优点在于：

IO次数更少 ：由于B+树在内部节点上不包含数据信息，因此在内存页中能够存放更多的key。数据存放的更加紧密，具有更好的空间局部性。因此访问叶子节点上关联的数据也具有更好的缓存命中率。
遍历更加方便：B+树的叶子结点都是相链的，因此对整棵树的遍历只需要一次线性遍历叶子结点即可。而且由于数据顺序排列并且相连，所以便于区间查找和搜索。而B树则需要进行每一层的递归遍历。相邻的元素可能在内存中不相邻，所以缓存命中性没有B+树好。

如何计算一个表能存多少数据

MySQL的数据页大小是16KB。（确切的说是InnoDB数据页大小16KB）

假设是主键的类型是bigint，那么就是8B，一个指针大小是6B，就是1前面的小空格占6B，那么第一层数据页能存储的节点数量是：161024/(8+6)=1170，第二层能存储的节点数量是：1170*1170=1368900，因为一个数据页能存储1170个数据节点，因为第三层的数据组成是数据+指针，如果字段非常多的话数据所占空间是不小的，我们这里以1kb(一条记录1KB是搓搓有余的了)计算，所以在第三层，每个节点为16kb，那么每个节点是可以放16个数据的，所以最终mysql可以存储的总数据为1170 * 1170 * 16 = 21902400 (千万级条)

参考：mysql一张表存多少数据的计算原理

基础

数据库的三范式是什么

‌**第一范式（1NF）**‌要求关系型数据库中的每个列都必须是原子的，即每列的值不能再分解成其他几列。这意味着每个列中不能包含多个值或多个重复的值。如果存在多个值，应该拆分成多个列或多个表。
‌**第二范式（2NF）**‌在第一范式的基础上，进一步要求每列数据完全依赖于主键。如果表中存在非主键部分依赖（即某些字段只依赖于主键的一部分），就不符合第二范式。为了满足第二范式，应将非主键部分依赖的字段抽取出来，建立新的表，并使用外键关联。
‌**第三范式（3NF）**‌在第二范式的基础上，要求表中的非主键字段不依赖于其他非主键字段。如果存在传递依赖（即非主键字段依赖于其他非主键字段），就不符合第三范式。为了满足第三范式，应将传递依赖的字段抽取出来，建立新的表，并使用外键关联。

InnoDB和MyISAM的区别

是否支持行级锁

MyISAM：只支持表锁

InnoDB：支持表锁和行锁，默认是支持行锁的（采用MVCC来支持高并发）

是否支持事务

MyISAM：不支持事务

InnoDB：支持事务

是否支持外键

MyISAM：不支持

InnoDB：支持

是否支持MVCC

MyISAM：不支持

InnoDB：支持

是否支持数据恢复

MyISAM：不支持

InnoDB：支持，InnoDB引擎会记录日志，通过redolog重做日志操作可以恢复数据

说一下 ACID 是什么？

ACID是数据库事务执行的四大基本要素，包括原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）、持久性（Durability）。

1、原子性

整个事务中的所有操作，要么全部完成，要不全部不完成，不可能停滞在中间某个环节。事务在执行过程中发生错误，会被roolback回滚到事务开始前的状态，就像这个事务从未执行过一样。

2、一致性

事务必须始终保持系统处于一致的状态，不管在任何给定的时间并发事务有多少。

3、隔离性

隔离状态执行事务，使他们好像是系统在给定时间内执行的唯一操作。

如果有两个事务，运行在相同的时间内，执行相同的功能，事务的隔离性确保每一个事务在系统中认为只有自己在使用系统。这种属性称为串行化，为了防止事务操作间的混淆，必须串行化或序列化请求，使得在同一时间仅有一个请求用于同一数据。

4、持久性

一个成功的事务将永久的改变系统的状态。

Select 语句完整的执行顺序

SQL Select 语句完整的执行顺序：

（1）from 子句组装来自不同数据源的数据；

（2）where 子句基于指定的条件对记录行进行筛选；

（3）group by 子句将数据划分为多个分组；

（4）使用聚集函数进行计算；

（5）使用 having 子句筛选分组；

（6）计算所有的表达式；

（7）select 的字段；

（8）使用order by 对结果集进行排序。

什么情况下mysql会索引失效

失效条件：

where 后面使用函数
使用or条件
模糊查询 %放在前边
类型转换
组合索引（最佳左前缀匹配原则）

Mysql的隔离级别以及解决的问题

READ-UNCOMMITTED（读未提交）

可能导致的问题：脏读

解决：用行锁，隔离级别升级，读已提交或以上

READ-COMMITTED（读已提交）

可能导致的问题：不可重复读

解决：隔离级别升级，升级到可重复读或以上

REPEATABLE-READ（可重复读，默认隔离级别）

可能导致的问题：幻读

解决：隔离级别升级，升级到串行化

定义：可重复读指的是在一个事务里，我两次select查询到的数据应该是一样的

SERIALIZABLE（串行化）

可避免幻读。读加共享锁，写加排他锁。这样读取事务可以并发，但是读写，写写事务之间都是互斥的

拓展

数据库一般会采取什么样的优化方法？

1、选取适合的字段属性

为了获取更好的性能，可以将表中的字段宽度设得尽可能小。

尽量把字段设置成not null

执行查询的时候，数据库不用去比较null值。

对某些省份或者性别字段，将他们定义为enum类型，enum类型被当做数值型数据来处理，而数值型数据被处理起来的速度要比文本类型块很多。

2、使用join连接代替子查询

3、使用联合union来代替手动创建的临时表

注意：union用法中，两个select语句的字段类型要匹配，而且字段个数要相同。

4、事务

要么都成功，要么都失败。

可以保证数据库中数据的一致性和完整性。事务以begin开始，commit关键字结束。

如果出错，rollback命令可以将数据库恢复到begin开始之前的状态。

事务的另一个重要作用是当多个用户同时使用相同的数据源时，它可以利用锁定数据库的方式为用户提供一种安全的访问方式，这样就可以保证用户的操作不被其他的用户干扰。

5、锁定表

尽管事务是维护数据库完整性的一个非常好的方法，但却因为它的独占性，有时会影响数据库的性能，尤其是在大应用中。

由于在事务执行的过程中，数据库会被锁定，因此其它用户只能暂时等待直到事务结束。

有的时候可以用锁定表的方法来获得更好的性能，

共享锁：其它用户只能看，不能修改

lock table person in share mode；

对于通过lock table 命令主动添加的锁来说，如果要释放它们，只需发出rollback命令即可。

6、使用外键

锁定表的方法可以维护数据的完整性，但是它却不能保证数据的关联性，这个时候可以使用外键。

7、使用索引

索引是提高数据库查询速度的常用方法，尤其是查询语句中包含max()、min()、order by这些命令的时候，性能提高更为显著。

一般来说索引应该建在常用于join、where、order by的字段上。尽量不要对数据库中含有大量重复的值得字段建立索引。

8、优化的查询语句

在索引的字段上尽量不要使用函数进行操作。

尽量不要使用like关键字和通配符，这样做法很简单，但却是以牺牲性能为代价的。

避免在查询中进行自动类型转换，因为类型转换也会使索引失效。

一张自增表里面总共有 7 条数据，删除了最后 2 条数据，重启 mysql 数据库，又插入了一条数据，此时 id 是几？

一般情况下，我们创建的表类型是InnoDB。

不重启MySQL，如果新增一条记录，id是8；

重启，ID是6；因为InnoDB表只把自增主键的最大ID记录在内存中，如果重启，已删除的最大ID会丢失。

如果表类型是MyISAM，重启之后，最大ID也不会丢失，ID是8；

InnoDB必须有主键（建议使用自增主键，不用UUID，自增主键索引查询效率高）、支持外键、支持事务、支持行级锁。

系统崩溃后，MyISAM很难恢复；

综合考虑，优先选择InnoDB，MySQL默认也是InnoDB。

MySQL优化

（1）尽量选择较小的列

（2）将where中用的比较频繁的字段建立索引

（3）select子句中避免使用'*'

（4）避免在索引列上使用计算、not in 和<>等操作

（5）当只需要一行数据的时候使用limit 1

（6）保证单表数据不超过200W，适时分割表。针对查询较慢的语句，可以使用explain 来分析该语句具体的执行情况。

（7）避免改变索引列的类型。

（8）选择最有效的表名顺序，from字句中写在最后的表是基础表，将被最先处理，在from子句中包含多个表的情况下，你必须选择记录条数最少的表作为基础表。

（9）避免在索引列上面进行计算。

（10）尽量缩小子查询的结果