cmu15545-数据存储(Database Storage)

蓝图

数据库自己管理磁盘数据和缓冲区，而不是通过操作系统管理（Os is not your friend.）。

数据库以页（page）为存储数据的基本单位，文件（file）是一系列页的集合，页中存储页数据（data），形成文件-页-数据三层架构。

文件有不同的组织形式，页包含页头和页数据，页数据可以采用不同方式组织：元组，日志，索引。

黄色部分为课程会提及的内容。

采用Heapfile进行文件存储时的执行图：

通过<FileId, PageId, Slot>定位到一个指向tuple的指针（磁盘地址），然后找到tuple。
slot指针的灵活性：内部元组位置变化时，外部无感知；指针可以指向其他页，可以存储大数据（文件，大文本）；支持变长记录。
数据库会为每个元组分配一个数据记录的唯一标识（record identifier），来表示元组的物理位置。SQLite和Oracle中为ROWID，Pg中是CTID，<PageId, Slot>。但是他们对于应用程序是无用的。

Tuple只是一个字符串（char\[\]），本身不存储类型信息，类型信息存在数据库的System Catalogs中。（为了保证数据紧凑；非自解释的）

存数据时会遇到的问题：

空值：Bit Map；特殊值
大值和文件：Overflow Page和External File。

大值采用溢出页；大文件可以采用溢出页，也可以用外部文件系统存储，然后存储一个指向文件路径的指针，而不是直接存储文件内容（Oracle:BFILE, Microsoft: FILESTREAM）。

基本概念：

直接用索引组织数据，数据挂在叶子结点上，Page内部的tuple有序。

SQLite和MySQL默认用这种方式组织数据，Oracle和SQL Server可选。

和基于元组的存储对比：