文件系统

文件分为：

内存文件：被进程打开的文件，文件被加载到内存中供进程快速读写。
磁盘文件：没有被打开的文件，保存在磁盘上。磁盘文件被分门别类的存储和管理，用于支持更好的存取。

提示：

内存文件：就是我们之前学习的进程与文件的关系，文件描述符，虚拟文件系统，缓冲区，重定向等知识。

磁盘文件：是我们接下来要学习的内容。

一、磁盘(HDD)

内存RAM（Random Access Memory） ------ 掉电易失存储介质
磁盘HDD（Hard Disk Drive） ------ 永久性存储介质

提示：

永久性存储介质还有：固态硬盘SSD（Solid State Drive），U盘，flash卡，光盘，磁带

磁盘是一个外设，还是计算机中唯一的一个机械设备！其读写速度相对较慢，当然OS存在一些提速方式。

1.1 物理结构

物理结构：

actuator：伺服电机（音圈马达，包括永磁铁和线圈）
spindle：主轴（包括轴承与马达）
read/write heads：磁头（读写头）
platters(disks)：磁盘盘片
logic board：磁盘主板（逻辑板）
connections：接口

磁盘存储数据的原理：

磁盘存储数据的原理是利用磁性材料在磁场作用下的磁化性质，通过在磁盘表面上划分成许多小区域，根据不同的磁化方向来表示0和1的二进制数据，通过读写磁头在磁盘上的移动，可以实现数据的读取和写入。
电脑硬盘拆解全过程放大100倍磁头坏道盘片磁道看的门清_哔哩哔哩_bilibili

注意：电脑开机状态下，不要搬运，挪动，碰撞。否则可以由于震动使磁头刮伤高速旋转的磁盘，从而导致数据丢失。

1.2 存储结构

在磁盘存储系统中，扇区（Sector）、磁道（Track）和柱面（Cylinder）是常用的概念。

扇区（Sector）：扇区是磁盘上最小的存储单位。它是一个固定大小的数据块，通常为512字节或4KB。磁盘上的数据以扇区为单位进行读取和写入。
磁道（Track）：磁道是磁盘上的一个圆形轨道，它位于磁盘的表面上。磁盘通常由多个同心圆组成，每个同心圆上都有一个磁道。磁道是磁盘上的物理结构，用于存储数据。磁道上的扇区可以被读取或写入数据。
柱面（Cylinder）：柱面是由多个磁盘盘片（Platter）上的相同磁道组成的垂直堆叠。每个盘片上的相同编号磁道构成一个柱面。柱面是磁盘存储系统中的逻辑概念，用于组织和寻址数据。操作系统和磁盘控制器使用柱面号来定位和访问磁盘上的数据。

总结来说，扇区是磁盘上最小的存储单位，磁道是磁盘上的一个圆形轨道，而柱面是由多个磁盘盘片上的相同磁道组成的垂直堆叠。这些概念在磁盘存储系统中用于组织和管理数据，并提供对数据的读取和写入操作。

1.2.1 CHS寻址

CHS（Cylinder-Head-Sector）寻址方式是一种早期的磁盘寻址方式，用于定位和访问磁盘上的数据。它将磁盘的物理结构抽象为柱面、磁头和扇区的组合。

CHS寻址方式使用柱面号、磁头号和扇区号的组合来定位和访问磁盘上的数据。 通过指定柱面号、磁头号和扇区号，操作系统或磁盘控制器可以精确地定位到磁盘上的特定数据位置。

然而，随着技术的发展，CHS寻址方式逐渐被LBA（Logical Block Addressing）寻址方式取代。LBA寻址方式使用逻辑块号来定位和访问磁盘上的数据，更加简单和灵活，能够支持更大容量的磁盘。

1.3 逻辑结构

将磁带从磁带盒中抽出来，原本卷在一起的圆形结构就变成了线性结构！

类比磁带，我们也可以将磁盘盘片抽象为线性结构(类似于数组)，扇区抽象为逻辑块(数组元素)，每个逻辑块都有逻辑块号(数组下标)：

1.3.1 LBA寻址

LBA是Logical Block Addressing（逻辑块寻址）的缩写。它是一种磁盘寻址方式，用于定位和访问磁盘上的数据。

在LBA寻址方式中，磁盘被抽象为逻辑块的序列，每个逻辑块都有一个唯一的逻辑块号（LBA）。逻辑块是磁盘上的最小可寻址单位，对应磁盘上的扇区，通常为512字节或4KB。

与CHS寻址方式不同，LBA寻址方式不需要考虑磁盘的物理结构，如柱面、磁头和扇区。通过指定逻辑块号，操作系统或磁盘控制器可以直接定位到磁盘上的特定逻辑块，而无需关心磁盘的物理布局。

LBA寻址方式的优点是简单和灵活。它可以支持更大容量的磁盘，并且不受物理结构的限制。此外，LBA寻址方式还可以提供更高的数据传输速率和更好的数据可靠性。

因此，现代计算机系统通常使用LBA寻址方式来管理磁盘上的数据，而不再使用传统的CHS寻址方式。

简单来说，我们可以将逻辑块序列当成数组，逻辑块号作为数组下标。

将数据存储到磁盘 --> 将数据存储到数组

找到磁盘的特定扇区 --> 找到数组的指定下标位置

对磁盘进行管理 --> 对该数组的管理

1.3.2 磁盘分区 & 块组

磁盘分区：

磁盘分区是将物理硬盘划分为多个逻辑部分，以便独立地管理和存储数据、操作系统和文件系统。
Boot Block：引导块，磁盘分区中的引导块是存储引导加载程序、引导信息和分区表的特殊区域。引导加载程序和引导信息用于启动操作系统和提供必要的配置信息；分区表中记录了磁盘上的分区布局和分区的起始位置、大小等信息。boot block有多份拷贝，可在损坏时进行修复。
Block group：块组，一个磁盘分区可以再划分为多个块组。

块组的结构介绍：

block：数据块，操作系统和磁盘进行IO操作的基本单位是4KB，即1个block大小，因此磁盘又叫做块设备。block用于保存文件内容，一个文件可能包含多个block。
inode：索引节点，是一个大小为128B的空间，用于保存对应文件的属性。每个inode节点都有一个唯一的inode编号。一个文件只有一个inode。
Data blocks：数据块集合，多个4KB大小的block组成的集合，用于保存特定文件的内容。
inode Table：索引节点表，多个文件的inode节点的集合，用于保存对应文件的属性。
Block Bitmap：块位图，用于记录Data blocks的占用情况。每个比特位和特定的block是一一对应的，比特位为1表示该block被占用，为0表示可用。
inode Bitmap：索引节点位图，用于记录inode Table的占用情况。每个比特位和特定的inode是一一对应的，比特位为1表示该inode被占用，为0表示可用。
Group Descriptor Table (GDT)：块组描述符，用于存储该块组的元数据信息。包括块组的起始位置，块组的大小，块位图的位置，索引节点位图的位置，索引节点表的位置，块组中可用空间的大小，块组中可用索引节点的数量，其他块组特定的信息等，以便操作系统能够快速定位和管理文件系统中的数据块和索引节点。
Super Block：超级块，它存储了该分区文件系统的元数据信息。包括文件系统的大小、块大小、inode数量等，以及文件系统的状态和配置信息。Super Block有多份拷贝，可在损坏时进行修复。

注意：

磁盘存储数据的基本单位是扇区(512B~4KB)，而一个block是4KB(8*512B)大小。为什么不以扇区大小作为IO操作的基本单位呢？

512B太小了，可能导致多次IO，进而导致读写效率降低。

磁盘的扇区大小并不总是512B，规定一个block是4KB，就是为了使软硬件解耦合。

Linux文件系统在磁盘上存储文件的时候，将文件的内容和属性分开来保存。文件的内容保存到块组中的Data blocks，文件的属性保存到inode

什么是元数据？

元数据是指描述数据的数据，它提供了关于数据的属性、结构、格式、位置和其他相关信息，帮助系统理解和管理数据。

对于文件来说，元数据信息可能包括文件的名称、大小、创建时间、修改时间、访问权限等。

对于分区文件系统来说，不单单只是保存文件信息，还有一批元数据结构专门负责管理信息，如Bitmap，用于管理Data blocks和inode Table；GDT，用于描述和管理整个块组；super block，用于描述和管理整个分区文件系统；等等。正是因为这些元数据结构的存在才能够让文件的信息可追溯，可管理。

磁盘格式化通常包括以下步骤：分区，创建文件系统（包括创建元数据结构，初始化元数据结构），完成格式化。

磁盘格式化实际上就是在写入文件系统。磁盘格式化是一个重要的步骤，它确保磁盘上的文件系统结构正确创建，并为文件和数据的存储提供了必要的基础。

二、索引节点(inode)

什么是索引节点(inode)？

索引节点(inode)是一个大小为128B的空间，用于保存对应文件的属性信息。
在同一分区中，每个inode节点都有只有唯一的一个inode编号。
在同一分区中，一个文件只有一个inode编号，对应一个inode。
每个分区都有自己的inode表，用于存储该分区中所有文件和目录的inode信息。在文件系统中，通过分区和inode编号的组合，可以唯一地标识和定位一个文件或目录。

一个文件可能包含多个block，如何找到属于同一个文件的block？

通过文件的inode编号，就可以找到该文件的索引节点。
索引节点inode中不仅包含了文件的属性信息，还包含了一部分属于该文件的block编号。
对于小文件，通过inode就能定位所有的block。
对于大文件，部分block中还会保存其他block的编号。通过这样的多叉树结构，就可以找到文件的所有block。

inode和文件名

inode属性中没有文件名。
目录也是文件，有自己的inode和data block。inode保存目录文件的属性；data block保存目录文件的内容：文件名和inode编号的映射关系。
在目录下创建(查看)文件需要目录的w(r)权限，这是因为要向目录文件的data block中写入(读取)数据。

注意：在同一目录下，不能创建同名文件。因为无法建立文件名和inode编号的一一映射关系。

通过对文件系统的学习，解释下面操作的具体步骤：

创建文件：
1. 在对应的分区中找一块大小合适的块组；
2. 遍历inode Bitmap找到第一个为0的比特位并将该位置1，创建文件inode。同时获得文件的inode编号。
3. 初始化文件inode，将文件的初始属性信息填入到inode Table对应的编号位置。并清空和data blocks的映射关系（空文件）。
4. 向当前目录中写入文件名(用户)和inode编号(文件系统)的映射关系。
删除文件：
1. 通过文件名，在目录文件的block中找到对应文件的inode编号。
2. 再通过inode编号，找到文件的inode。其中包含了一部分属于该文件的block编号。
3. 在block bitmap中将文件所属的block位，置0。
4. 在inode bitmap中将文件的inode位，置0。
5. 删除目录文件中记录的文件名和inode编号的映射关系。
提示：
1. 删除文件时，不需要将数据清空，只需要将文件所占的空间标定无效即可。这就是为什么删除文件要比拷贝文件要快。
2. 系统会记录文件的删除日志，包括删除文件的文件名及inode编号。如果对应空间没有被覆盖写入的话，是可以利用某些工具恢复已经删除的文件的（其实就是将inode/block bitmap中的对应位置1）。所以如果把重要的文件误删了，最好做法是什么都不做。
查看文件(ls -l)：
1. 通过文件名，在目录文件的block中找到对应文件的inode编号。
2. 再通过inode编号，找到文件的inode。inode中包含文件的属性信息。
3. 格式化输出文件名及各种属性。
修改文件：
1. 打开文件，将文件加载到内存，并获取对应的文件描述符。
2. 以写入为例，进程先将数据拷贝到缓冲区，再根据某种刷新策略将缓冲区中的数据刷新到文件描述符对应的磁盘文件。
3. 在向磁盘写入的过程中，同样是先通过文件名，在目录文件的block中找到对应文件的inode编号。
4. 再通过inode编号，找到文件的inode。最后将数据刷新到文件的data block。

为什么分区/块组有剩余空间但无法创建新文件？

因为块组中的inode和data block的大小和个数是固定的，有时会出现inode有空余但data block占满，或data block有空余但inode占满的现象。给人直观的感受就是明明该分区/块组有剩余空间，但无法创建新文件(inode占满)，或文件无法进行写入(data block占满)。

三、软硬链接

3.1 创建文件的软硬链接

创建软链接的命令：ln -s filepath softlink
创建硬链接的命令：ln filepath hardlink
软硬链接的区别：软链接有独立的inode，是一个独立的文件；硬链接没有独立的inode，不是一个独立的文件。

3.2 软链接

软链接有独立的inode，是一个独立的文件。软链接的文件内容是目标文件的路径。
软链接相当于Windows系统下文件的快捷方式。

3.3 硬链接

硬链接没有独立的inode，不是一个独立的文件。他与目标文件共享同一个inode，其内容，属性与目标文件完全相同。
创建文件的硬链接，本质上就是在指定目录下建立了文件名和目标文件inode的映射关系，并没有创建新文件。简单来说，就是给目标文件起别名。
文件属性中的硬链接数表示与文件inode关联的文件名的数量。每创建一个硬链接，硬链接数就+1。
当我们删除文件时，如果文件的硬链接数大于1，就将硬链接数-1。如果文件的硬链接数等于1，才真正删除这个文件。

硬链接的作用：为目录文件取别名。

.和..其实就是目录文件的硬链接。. 表示当前目录，..表示上级目录
新创建的普通文件只有1个文件名与其inode关联，因此硬链接数为1。
新创建的目录文件硬链接数为2。与其inode关联的文件名有：目录名，目录中的当前目录.
在目录中每创建一个子目录都会使硬链接数+1，这是因为在每一个子目录中都有一个上级目录..

小技巧：不打开目录，只通过目录的硬链接数就能知道目录中有多少个子目录。用硬链接数-2即可。

unlink：用于删除普通文件的系统调用，实际是解除文件名和inode的链接关系

提示：unlink同时也是一个系统命令，可以用来删除一个普通文件。

【基础IO】文件系统 {磁盘的物理结构，存储结构，逻辑结构；CHS 和 LBA 寻址方式；磁盘分区和块组；文件inode；软硬链接}