MySQL——buffer poll

如果没有buffer poll，每次读取数据的时候都是从磁盘上读的，这样效率是很差的的。所以有了提高效率的方式，就加上了一个缓存------buffer poll

所以，当我们读取数据的时候就有以下的方式

在MySQL启动的时候，会向操作系统申请一片内存为buffer poll，默认是128MB。

当然，这个配置是可以通过innodb_buffer_poll_size参数设置

InnoDB会把存储的数据划分为一个个页，每个页的大小都是16KB，而buffer poll中的页就叫做缓存页

Free List：管理空闲的页，当执行查询操作的时候，如果对应的也在buffer poll中就直接返回，如果不在buffer poll中，但Free List不为空，则从磁盘查询对应的数据并且保存到Free List的某个页中，然后将这个页从Free List中移除并放入到LRU List中。
LRU List：管理所有从磁盘读取的页，包含了未被修改和已经修改的页，并根据LRU算法进行维护和淘汰。
Flush List：当LRU List中的页被修改后会被标识为脏页，并把脏⻚加⼊到Flush List 中，在这种情况下，数据库会通过刷盘机制把 Flush List中的脏⻚刷回磁盘

Flush List是一个专门用来管理脏页的列表，而LRU List是用来管理buffer poll中页的可用性。Flush List ⽤来管理要被刷回磁盘的⻚，⼆者互不影响。 Flush List 中的脏⻚在执⾏了刷盘操作后会将空间还给Free List

第一种方式就是遍历链表，这显然不可取，时间复杂度达到了O（N）
第二种方式就是InnoDB采取的方式，用page Hash 的方式，也就是每当磁盘将数据页加载到内存的时候，用数据的页空间ID和页号作为KEY，当前页的地址作为VALUE保存起来 ，每次查询时通过key来找到对应的value,从而快速找到对应的目标页。时间复杂度是O（1）

首先我们要知道当修改数据的时候，先修改的是buffer poll所在的页，并标记为脏页，但是此时磁盘还是原来的数据。所以在刷盘前会采用WAL技术，即先写入日志，再写入磁盘。

这样的方式即使MySQL宕机了，也可以通过redo log重新恢复数据。

以下是刷盘时机：

buffer poll的大小是有限的，难免就有可能buffer poll满了，需要淘汰掉一部分数据。而我们当然希望频繁访问的数据在buffer poll，淘汰掉哪些不经常访问的数据，这就保证了buffer poll可以继续缓存新的数据了。

所以，有了LRU算法。
算法思想：链表头部的数据是最新被访问的，而链表后面的数据是最久未被访问的。那么当空间不足的时候，就要淘汰掉哪些最久未被使用的数据了。

所以当我们访问数据的时候，有两种结果：

比如下图，假设LRU链表长度为5，LRU链表从左到右有 1 2 3 4 5的页

如果访问了3号的页，就需要将3号放到LRU链表的头部

如果访问的8号的页，因为8号页不在buffer poll中，所以需要将8号页放到LRU链表的头部，并且淘汰掉5号页

但是MySQL没有采用这种方式，因为这种方式会带来两个问题

预读失效：要知道CPU在加载数据的时候，是一块一块存储的 ，因为相邻的数据可能会在短时间访问到，所以MySQL在加载数据的时候，会将它相邻的数据加载进来，目的就是为了减少磁盘IO。

但是，这些被加载进来的数据是有可能没有被访问的，这就导致了预读失效。

所以为了解决上面的问题，MySQL将LRU算法改进，将LRU链表划分为了2个区域，一个是young区，一个是old区 ，例如下图

划分了2个区域后，预读的数据页就会放到old区域，不会放到young区域，只有真正的被访问的使用，会插入到young区域的头部，如果预读的页一直没有被访问就会从old区域中移除。

这样就解决了预读失效的问题，但是还有一个就是buffer poll污染问题没有被解决。

当某个SQL语句需要扫描大量的数据，并且buffer poll内存有限的情况下，可能会将buffer poll里的所有数据全部替换出去，导致大量的热点数据失效了。当再次被访问的时候，就会造成大量的磁盘IO，性能下降，这就是buffer poll污染。

MySQL为了解决buffer poll污染的问题，将old区域添加了一个时间判断

如果访问的时间在第一次访问的时间间隔内，那么不会将这个数据页从old区域放到young区域，如果不在第一次访问的时间间隔内，就会将该数据页从old渔区放到young区域。这样就解决了buffer poll污染的问题。

参考资料：