【数据库系统原理】第19篇：计算机存储层次结构与数据库文件的物理组织

一、存储层次：从寄存器到磁盘的距离是六个数量级

计算机的存储系统并非平坦均匀的空间，而是按照访问速度和容量组织为严格的层次结构。从最接近CPU的寄存器开始，向下一层层延伸------一级缓存、二级缓存、三级缓存、主存储器、固态硬盘、机械硬盘，直至归档磁带。每一层都比上一层慢一个数量级，每一层都比上一层大一个数量级，每一层都以上一层无法企及的低廉成本提供存储空间。

这个层次结构对数据库系统的设计产生了一条根本性的约束：数据库的主体数据长期驻留在持久存储层（磁盘或SSD），而查询处理和事务管理发生在主存层。 从磁盘向主存搬运数据，是整个查询执行过程中最昂贵的时间消耗环节。一次CPU指令的执行时间以纳秒计，一次主存访问以数十纳秒计，而一次机械磁盘的随机读取以毫秒计------这之间相差了六个数量级。这意味着，数据库管理系统性能优化的核心战场，不在于CPU的指令效率，而在于如何最小化磁盘IO次数。索引结构为什么要设计成高度平衡的B+树而非简单的有序链表，缓冲区管理器为何需要精巧的页面置换策略，查询优化器为何要不遗余力地将选择条件下推------所有这些设计的底层驱动力，都可以追溯到"磁盘很慢"这一物理事实。

数据库管理系统通过缓冲区管理器在磁盘与主存之间架设桥梁。磁盘上的数据以定长页面为单位组织，主存中划出一片区域作为缓冲池，缓冲池中的页面是磁盘页面的内存镜像。当查询需要访问某个页面时，系统首先检查缓冲池中是否已有该页面的副本------若有则直接访问内存，若否则从磁盘读入。当缓冲池空间不足时，系统按照淘汰策略将某些页面驱逐回磁盘（如果页面被修改过）或直接丢弃（如果页面未被修改）。这一"按页缓存、按需加载、惰性淘汰"的机制，是数据库管理系统处理存储层次差距的核心手段。

二、磁盘的物理结构与IO代价解剖

为了理解数据库文件为什么要以特定的方式组织，必须首先理解数据是如何在磁盘上存放的。

机械磁盘由一组圆形盘片堆叠而成，盘片表面涂有磁性材料。每个盘片表面被划分为同心圆状的磁道，磁道进一步被划分为扇区（通常每个扇区512字节或4KB）。读写磁头在盘片上方悬浮，当需要访问某个扇区时，磁头臂必须首先移动到目标磁道上方（寻道时间），然后等待盘片旋转将目标扇区转到磁头下方（旋转延迟），最后完成数据传输（传输时间）。

在这三个环节中，寻道时间通常是最昂贵的------从最内圈磁道移动到最外圈可能需要数毫秒。旋转延迟取决于盘片转速------7200转/分钟的磁盘平均旋转延迟约为4.2毫秒。传输时间则相对较短------现代磁盘的顺序读取吞吐量可达每秒数百兆字节，一旦磁头定位完成，连续读取相邻扇区的边际成本极低。

这一物理特性带来了一条至关重要的设计准则：顺序IO远快于随机IO。 连续读取磁盘上相邻的一百个页面，时间开销接近于一次寻道加一次旋转延迟加上一百页的传输时间。而随机读取散布在磁盘各处的一百个页面，时间开销接近一百次寻道加一百次旋转延迟------两者相差可能达到两到三个数量级。数据库系统的一切存储设计------文件的页面分配策略、索引的顺序扫描优化、查询执行的全表扫描与索引扫描的代价权衡------其根源都可以追溯至"顺序与随机"这一对根本性的成本差异。

三、数据库文件的物理组织：页面与记录

在磁盘之上，数据库管理系统建立了自己的空间管理体系。一个数据库由多个数据文件组成，每个文件被划分为固定大小的数据页（或称为块）。数据页是数据库系统与磁盘之间数据传输的最小单位------一次IO操作读取或写入一个完整的页面，即使所需的只是页面中的一小部分数据。

数据页的内部被组织为一条条的记录。一条记录对应于关系中的一个元组。记录在页面中的存储方式有两种基本策略：定长记录和变长记录，它们各自面临不同的工程挑战。

定长记录的存储最为简单。如果关系模式中所有列都是定长类型（如CHAR、INTEGER、DATE），那么每条记录的长度在模式定义时就是已知且恒定的。记录在页面中紧密排列，系统通过页面内偏移量可以快速定位到第k条记录。定长记录的插入通常追加到页面末尾的空闲空间中，删除则在原地留下空洞。空洞的管理有两种常见方案：一是使用空闲列表将空洞串联起来，后续插入优先填充空洞；二是定期通过页面紧缩操作将碎片整理为连续的可用空间。

变长记录 的存储则涉及更多设计决策。当关系模式包含VARCHAR、TEXT等变长类型时，每条记录的实际长度取决于其存储的具体数据值。系统无法在模式定义时预知每条记录将占用多少字节。变长记录通常采用槽页结构来管理：页面的开头存储一个槽目录，记录每条记录在页面内的起始偏移量；记录数据从页面底部向顶部生长，槽目录从页面顶部向底部生长，两者之间的区域为空闲空间。当需要插入一条新记录时，系统在空闲空间中分配空间，并在槽目录中添加一条新的条目。这种设计的一个巧妙之处在于：记录的物理顺序与逻辑顺序解耦------槽目录可以按照主码顺序排列，而记录的实际存储位置可以随意，通过槽目录中的偏移量映射来呈现有序性。

四、大字段的跨页存储技术

关系模型中属性的原子性要求并不意味着每个属性值都必须安然坐落于一个页面之内。BLOB（Binary Large Object）、CLOB（Character Large Object）以及超长的VARCHAR值，其长度可能远超一个标准数据页的容量（通常为4KB至16KB）。当一条记录因为某个大字段而无法装入一个页面时，系统需要跨页存储机制来处理。

常见的策略是行外存储：大字段的主体数据不存储在记录本身所在的页面中，而是分配在单独的大对象存储区。记录中仅保留一个指向该大对象的指针（存储位置标识符）。当查询未访问该大字段时，系统只读取记录的主体部分，无需加载大对象页面，节省了IO开销。只有当查询显式要求读取该大字段时，系统才通过指针追踪加载大对象数据。许多数据库系统允许设计者为每个大字段列设置存储阈值------小于阈值的数据与记录同页存储，大于阈值的数据则自动迁移至行外。

这一策略的潜在代价是：当查询确实需要访问大字段时，必须额外执行一次或多次随机IO来加载行外数据。设计者在物理设计阶段应审慎评估大字段的访问频率------对于高频访问的大字段，将其与记录主体同页存储可能更优；对于低频访问的大字段，行外存储能显著缩小主表的页面占用，提高缓冲池的有效利用率。

五、页面布局的工程权衡

数据页的内部结构设计并非单纯的存储效率问题，它还深刻影响着查询的执行效率。页面的物理布局涉及记录在页面内的排序方式、空闲空间的分配策略以及元数据的组织方式。

行存布局是传统关系数据库的标准选择------一条记录的所有列连续存放在一起。行存布局对于OLTP场景极为友好：事务通常访问单行的全部列或多数列（例如，获取某客户的完整资料、更新某订单的状态），行存保证了读取单行全部数据只需一次IO。

与之对应的列存布局将同一列的所有值连续存放在一起------不是行内连续，而是列内连续。列存布局在OLAP场景中具有压倒性优势：分析型查询通常只访问少数几列，但要扫描大量行（例如，计算所有客户的平均年龄------只需要年龄列，但需要遍历所有客户）。列存使得查询只需读取相关列的页面，而无需将无关列的数据一并加载进缓冲池。此外，同一列的数据类型相同、取值范围有限，天然适合高效的压缩算法------游程编码、字典编码、位图编码等压缩技术可以将列数据的存储空间压缩至行存的数分之一。列存储在数据仓库和实时分析系统中日益成为主流选择，许多现代数据库系统同时支持行存和列存，由设计者根据表的访问模式灵活选择。

六、结语：物理层是逻辑层的重力场

计算机存储的层次结构、磁盘的顺序与随机IO的巨大成本差异、页面与记录的精细管理、大字段的行外存储------这些物理层的现实构成了数据库系统设计无法逃避的"重力场"。在这个重力场中，逻辑层的一切优雅设计------关系代数的封闭性、范式的无损分解、SQL的声明性表达------都必须落地为物理层的页面分配、缓冲区调度和IO调度。

理解物理存储层的约束，不是为了将每一个数据库使用者都训练成磁盘硬件专家，而是为了建立一种"成本意识"------当你书写一条SQL查询时，你隐约知晓它将在磁盘上引发多少次顺序扫描、多少次随机跳跃；当你设计一个索引时，你能够预判它的维护代价在写密集型负载下是否会被放大。这种将逻辑操作映射为物理成本的直觉，是数据库系统原理这门学科从"能做什么"走向"值得怎么做"的关键一步。

下一篇，我们将从页面内部的记录组织上升到表级别的文件组织------堆文件、顺序文件与散列文件，这三种基本的物理排列方式如何权衡插入效率与查询效率，以及它们各自在何种工作负载下是最优选择。