MySQL——buffer poll

为什么要有buffer poll?

如果没有buffer poll,每次读取数据的时候都是从磁盘上读的,这样效率是很差的的。 所以有了提高效率的方式,就加上了一个缓存------buffer poll

所以,当我们读取数据的时候就有以下的方式

  • 当读取数据的时候,如果buffer poll中有,就直接返回给用户
  • 如果buffer poll中没有,就需要将数据所在的页设置为脏页,然后由后台的线程将脏页读取到磁盘上

buffer poll有多大

在MySQL启动的时候,会向操作系统申请一片内存为buffer poll,默认是128MB。

当然,这个配置是可以通过innodb_buffer_poll_size参数设置

buffer poll中的页

InnoDB会把存储的数据划分为一个个页,每个页的大小都是16KB,而buffer poll中的页就叫做缓存页

什么是脏页、空闲页、干净页

  • 空闲页:buffer poll中没有用到的页
  • 干净页:buffer poll中的页数据和磁盘上的一样
  • 脏页:buffer poll中的页数据和磁盘上的不一样

如何管理空闲页、干净页、脏页?

  • Free List:只管理空闲页
  • LRU List:管理干净页和脏页
  • Flush List:只管理脏页
  • Free List:管理空闲的页,当执行查询操作的时候,如果对应的也在buffer poll中就直接返回,如果不在buffer poll中,但Free List不为空,则从磁盘查询对应的数据并且保存到Free List的某个页中,然后将这个页从Free List中移除并放入到LRU List中。
  • LRU List:管理所有从磁盘读取的页,包含了未被修改和已经修改的页,并根据LRU算法进行维护和淘汰。
  • Flush List:当LRU List中的页被修改后会被标识为脏页,并把脏⻚加⼊到Flush List 中,在这种情况下,数据库会通过刷盘机制把 Flush List中的脏⻚刷回磁盘

Flush List是一个专门用来管理脏页的列表, 而LRU List是用来管理buffer poll中页的可用性。Flush List ⽤来管理要被刷回磁盘的⻚,⼆者互不影响。 Flush List 中的脏⻚在执⾏了刷盘操作后会将空间还给Free List

内存这么多数据页,如何快速找到目标页呢?

  • 第一种方式就是遍历链表,这显然不可取,时间复杂度达到了O(N)
  • 第二种方式就是InnoDB采取的方式,用page Hash 的方式,也就是每当磁盘将数据页加载到内存的时候,用数据的页空间ID和页号作为KEY,当前页的地址作为VALUE保存起来每次查询时通过key来找到对应的value,从而快速找到对应的目标页。 时间复杂度是O(1)

脏页什么时候被刷盘呢?

首先我们要知道当修改数据的时候,先修改的是buffer poll所在的页,并标记为脏页,但是此时磁盘还是原来的数据。所以在刷盘前会采用WAL技术,即先写入日志,再写入磁盘。

这样的方式即使MySQL宕机了,也可以通过redo log重新恢复数据。

以下是刷盘时机:

  • 当redo log满了后,会将脏页刷入到磁盘中
  • buffer poll空间不足时,会淘汰数据页,如果是脏页就会进行刷盘
  • 由后台进程在空闲的时候自动进行刷盘

buffer poll是通过什么方式淘汰数据的?

buffer poll的大小是有限的,难免就有可能buffer poll满了,需要淘汰掉一部分数据。而我们当然希望频繁访问的数据在buffer poll,淘汰掉哪些不经常访问的数据,这就保证了buffer poll可以继续缓存新的数据了。

所以,有了LRU算法。
算法思想:链表头部的数据是最新被访问的,而链表后面的数据是最久未被访问的。那么当空间不足的时候,就要淘汰掉哪些最久未被使用的数据了。

所以当我们访问数据的时候,有两种结果:

  • 如果访问的数据在链表上,就将它放到LRU链表的头部
  • 如果没有在链表上,就需要将页放到链表的头部,并且淘汰掉LRU链表最后的节点。

比如下图,假设LRU链表长度为5,LRU链表从左到右有 1 2 3 4 5的页

如果访问了3号的页,就需要将3号放到LRU链表的头部

如果访问的8号的页,因为8号页不在buffer poll中,所以需要将8号页放到LRU链表的头部,并且淘汰掉5号页

但是MySQL没有采用这种方式,因为这种方式会带来两个问题

  • 预读失效
  • buffer poll污染

什么是预读失效?

预读失效:要知道CPU在加载数据的时候,是一块一块存储的 ,因为相邻的数据可能会在短时间访问到,所以MySQL在加载数据的时候,会将它相邻的数据加载进来,目的就是为了减少磁盘IO。

但是,这些被加载进来的数据是有可能没有被访问的,这就导致了预读失效。

如何解决预读失效问题?

所以为了解决上面的问题,MySQL将LRU算法改进,将LRU链表划分为了2个区域,一个是young区,一个是old区 ,例如下图

划分了2个区域后,预读的数据页就会放到old区域,不会放到young区域,只有真正的被访问的使用,会插入到young区域的头部,如果预读的页一直没有被访问就会从old区域中移除。

这样就解决了预读失效的问题,但是还有一个就是buffer poll污染问题没有被解决。

什么是buffer poll污染?

当某个SQL语句需要扫描大量的数据,并且buffer poll内存有限的情况下,可能会将buffer poll里的所有数据全部替换出去,导致大量的热点数据失效了。 当再次被访问的时候,就会造成大量的磁盘IO,性能下降,这就是buffer poll污染。

如何解决buffer poll污染的问题?

MySQL为了解决buffer poll污染的问题,将old区域添加了一个时间判断

如果访问的时间在第一次访问的时间间隔内,那么不会将这个数据页从old区域放到young区域,如果不在第一次访问的时间间隔内,就会将该数据页从old渔区放到young区域。 这样就解决了buffer poll污染的问题。

参考资料:

相关推荐
Elastic 中国社区官方博客20 分钟前
使用真实 Elasticsearch 进行高级集成测试
大数据·数据库·elasticsearch·搜索引擎·全文检索·jenkins·集成测试
@_@哆啦A梦37 分钟前
Redis 基础命令
java·数据库·redis
fajianchen41 分钟前
MySQL 索引存储结构
数据库·mysql
想做富婆1 小时前
oracle: 多表查询之联合查询[交集intersect, 并集union,差集minus]
数据库·oracle·联合查询
xianwu5432 小时前
反向代理模块jmh
开发语言·网络·数据库·c++·mysql
Leven1995273 小时前
Flink (十三) :Table API 与 DataStream API 的转换 (一)
数据库·sql·flink
geovindu3 小时前
neo4j-community-5.26.0 create new database
数据库·mysql·neo4j
MyY_DO3 小时前
maven mysql jdk nvm node npm 环境安装
java·mysql·maven
因特麦克斯4 小时前
索引的底层数据结构、B+树的结构、为什么InnoDB使用B+树而不是B树呢
数据库
心 -4 小时前
增删改查(CRUD)操作
mysql