第4章文件管理

1、整体概览

1）文件属性

文件的定义：一组有意义的信息的集合。

文件名 ：由创建文件的用户决定文件名，主要是为了方便用户找到文件，同一目录下不允许有重名文件；
标识符 ：一个系统内的各文件标识符唯一，对用户来说毫无可读性，因此标识符只是操作系统 用于区分各个文件 的一种内部名称；
类型：指明文件的类型；
位置：文件存放的路径（让用户使用）在外存中的地址（操作系统使用，对用户不可见）；
大小：指明文件大小；
创建时间、上次修改时间；
文件所有者信息；
保护信息：对文件进行保护的访问控制信息。

2）文件数据组织

文件内部数据 的组织实际上是探讨文件逻辑结构 的问题；文件之间，操作系统使用**目录结构**进行管理，即文件夹。

无结构文件 （如txt，文本文件）------由一些二进制或字符流组成，又称"流式文件"；
有结构文件 （如数据库表）------由组相似的记录组成，又称"记录式文件"。

3）操作系统提供功能

操作系统向上提供的几个最基本的功能
1. 创建文件(create系统调用)
2. 删除文件(delete系统调用)
3. 读文件(read系统调用)
4. 写文件(write系统调用)
5. 打开文件(open系统调用
6. 关闭文件(close系统调用)
读/写文件之前，需要"打开文件"
读/写文件结束之后，需要"关闭文件"

可以通过对以上几个基本功能进行组合，完成一些复杂操作，例如复制操作：创建→打开文件→读文件→写文件→关闭文件。

4）文件的物理结构和存储空间管理

文件数据放在连续的几块磁盘块中；
文件数据放在离散的几块磁盘块中；
操作系统需要以某种方式**管理（分配）**空闲磁盘块；

5）其他文件管理功能

文件共享：使多个用户可以共享使用一个文件；
文件保护：如何保证不同的用户对文件有不同的操作权限。

2、逻辑结构VS物理结构

逻辑结构 （用户视角）
1. 用户（文件创建者）的视角看到的样子；
2. 在用户看来，整个文件占用连续的逻辑地址空间；
3. 文件内部的信息组织完全由用户自己决定，操作系统并不关心。
物理结构 （操作系统视角）
1. 由操作系统 决定文件采用什么物理结构存储；
2. 操作系统负责将逻辑地址转变为 （逻辑块号，块内偏移量）的形式，并负责实现逻辑块号到物理块号的映射。

文件的逻辑结构
- 无结构文件
- 有结构文件
  1. 顺序文件
    - 顺序存储
    - 链式存储
  2. 索引文件
  3. 索引顺序文件
文件的物理结构
- 连续分配
- 链接分配
- 索引分配

从用户的视角看，数据可以用顺序文件、索引文件、索引顺序文件的形式进行存储；

从操作系统 的视角看，可以用连续分配、链接分配、索引分配对数据进行存储；

两者互不干涉，完成自己的分配方案即可。

3、文件的逻辑结构

1）无结构文件

无结构文件：由二进制流或字符流组成，无明显的逻辑结构；

2）有结构文件

有结构文件 ：由一组相似的记录组成，又称"记录式文件 "。每条记录又若干个数据项组成。如：数据库表文件。一般来说，每条记录有一个数据项可作为关键字 （作为识别不同记录的ID）。根据个条记录的长度（占用的存储空间）是否相等，又可分为定长记录 （char）和可变长记录（varchar）两种。

3）顺序文件

顺序文件 ：文件中的记录一个接一个地顺序排列（逻辑上），记录可以是定长的或可变长 的。各个记录在物理上可以顺序存储 或链式存储。

串结构：记录之间的顺序与关键字无关

顺序结构：记录之间的顺序按关键字顺序排列

①链式存储

无论是定长/可变长记录，都无法实现随机存取，每次只能从第一个记录开始依次往后查找；

②顺序存储

可变长记录 ：无法实现随机存取。每次只能从第一个记录开始依次往后查找；
定长记录
- 可实现随机存取。记录长度为L，则第 i 个记录存放的相对位置是 i * L；
- 若采用串结构，无法快速找到某关键字对应的记录；
- 若采用顺序结构，可以快速找到某关键字对应的记录（如折半查找）。

结论：定长记录的顺序文件，若物理上采用顺序存储 ，则可实现随机存取；若能再保证记录的顺序结构，则可实现快速检索（即根据关键字快速找到对应记录）；

一般地，顺序文件是指物理上的顺序存储的顺序文件，缺点是增删一个记录困难（串结构则简单）。

4）索引文件

索引表 本身是定长记录的顺序文件 。因此可以快速找到第 i 个记录对应的索引项。可将关键字 作为索引号内容 ，若按关键字顺序排列，则还可以支持按照关键字折半查找 。每当要增加/删除一个记录时，需要对索引表进行修改。由于索引文件有很快的检索速度，因此主要用于对信息处理的及时性要求比较高的场合。

另外，可以用不同的数据项建立多个索引表。如：学生信息表中，可用关键字"学号"建立一张索引表。也可用"姓名"建立一张索引表。这样就可以根据"姓名"快速地检索文件了。（Eg：SQL就支持根据某个数据项建立索引的功能）。

多级索引顺序文件

为了进一步提高检索效率，可以为顺序文件建立多级索引表 。例如，对于一个含 10⁶个记录的文件，可先为该文件建立一张低级索引表，每100个记录为一组，故低级索引表中共有10000个表项（即10000个定长记录），再把这10000个定长记录分组，每组100个，为其建立顶级索引表，故顶级索引表中共有100个表项。

4、文件目录

1）文件目录的实现

文件控制块是实现文件目录的关键数据结构；

FCB的有序集合称为"文件目录"，一个FCB就是一个文件目录项。

一个文件对应一个FCB，一个FCB就是一个目录项，多个FCB组成文件目录
对目录的操作：搜索、创建文件、删除文件、显示文件、修改文件

FCB 中包含了文件的基本信息 （文件名、物理地址 、逻辑结构、物理结构等），存取控制信息（是否可读/可写、禁止访问的用户名单等），使用信息（如文件的建立时间、修改时间等）。最重要，最基本的还是文件名、文件存放的物理地址 。（FCB 实现了文件名和文件之间的映射。使用户（用户程序）可以实现"按名存取"）。

2）目录结构

单级目录结构：一个系统只有一张目录表不允许文件重名；
两级目录结构：不同用户的文件可以重名，但不能对文件进行分类
多级（树形）目录结构（树形目录结构）
- 不同目录下的文件可以重名，可以对文件进行分类，不方便文件共享；
- 系统根据"文件路径"找到目标文件，读磁盘I/O操作频繁；
- 从根目录出发的路径是"绝对路径"（"/照片/2015-08/自拍.jpg"）；
- "当前目录"出发的路径是"相对路径"（"./2015-08/自拍.jpg"）→减少读写磁盘I/O操作。
无环图目录结构
- 在树形目录结构的基础上，增加一些指向同一节点的有向边，使整个目录成为一个有向无环图；
- 为共享结点设置一个共享计数器，计数器为0时才真正删除该结点。
索引结点（对文件控制块FCB的优化）
- 除了文件名之外的所有信息都放到索引结点中，每个文件对应一个索引结点；
- 目录项中只包含文件名、索引结点指针，因此每个目录项的长度大幅减小；
- 由于目录项长度减小，因此每个磁盘块可以存放更多个目录项，因此检索文件时磁盘I/O的次数就少了很多。

5、文件的物理结构

整体概览

文件的物理结构/文件分配方式 ：对==非空闲==磁盘块的管理（存放了文件数据的磁盘块），即文件数据如何存放在外存中。

文件块、磁盘块

在内存管理中，进程的逻辑地址空间被分为一个一个页面。同样的，在外存管理中，为了方便对文件数据的管理，文件的逻辑地址空间也被分为了一个一个的文件"块" 。于是文件的逻辑地址也可以表示为（逻辑块号，块内地址）的形式。

很多操作系统中，磁盘块的大小与内存块、页面的大小相同。

用户在使用操作文件时，实际上是用文件的逻辑地址，操作系统负责将逻辑地址转化为物理地址。

1）连续分配

连续分配 方式要求每个文件在磁盘上占有一组连续的块。

优点：支持顺序访问和直接访问（即随机访问）；连续分配的文件在顺序访问时速度最快；
缺点：不方便文件拓展 ；存储空间利用率低，会产生磁盘碎片。

2）链接分配

链接分配采取离散分配的方式，可以为文件分配离散的磁盘块。分为隐式链接和显式链接两种。

①隐式链接

隐式链接------除文件的最后一个盘块之外，每个盘块中都存有指向下一个盘块的指针。文件目录包括文件第一块的指针和最后一块的指针。

优点：很方便文件拓展，不会有碎片问题，外存利用率高。
缺点：只支持顺序访问，不支持随机访问 ，查找效率低，指向下一个盘块的指针也需要耗费少量的存储空间。

②显式链接

显式链接------把用于链接文件各物理块的指针显式地存放在一张表中，即 文件分配表 （FAT , File Allocation Table）。一个磁盘只会建立一张文件分配表。开机时文件分配表放入内存，并常驻内存。

优点：很方便文件拓展，不会有碎片问题，外存利用率高，并且支持随机访问 。相比于隐式链接来说，地址转换时不需要访问磁盘 ，因此文件的访问效率更高；
缺点：文件分配表的需要占用一定的存储空间。

未指明隐式/显式的"链接分配"，默认指的是隐式链接的链接分配。

3）索引分配

①链接方案

如果索引表太大，一个索引块不下，那么可以将多个索引块链接起来存放。

缺点：若文件很大，索引表很长，就需要将很多个索引央链接起来；
想要找到 i 号索引块，必须先依次读入0 ~ i-1号索引块，这就导致磁盘I/O次数过多，查找效率低下。

②)多层索引

建立多层索引（原理类似于多级页表 ）。使第一层索引块指向第二层的索引块。还可根据文件大小的要求再建立第三层、第四层索引块。采用K层索引结构，且顶级索引表未调入内存，则访问一个数据块依然需要K+1次读磁盘操作。

缺点：即使是小文件，访问一个数据块依然需要K+1次读磁盘。

③混合索引

多种索引分配方式的结合。例如，一个文件的顶级索引表中，既包含直接地址索引 （直接指向数据块）、又包含一级间接索引 （指向单层索引表）、还包含两级间接索引（指向两层索引表）。

优点：对于小文件来说，访问一个数据块所号的读磁盘次数更少。

④重点

要会根据多层索引、混合索引的结构计算出文件的最大长度（Key：各级索引表最大不能超过一个块）;
要能自己分析访问某个数据块所需要的读磁盘次数 （Key：FCB中会存有指向顶级索引块的指针，因此可以根据FCB读入顶级索引块。每次读入下一级的索引块都需要一次读磁盘操作。另外，要注意条件------顶级索引块是否已调入内存）

6、文件存储空间管理

文件存储空间管理 ：对==空闲==磁盘块的管理

1）存储空间的划分与初始化

文件卷（逻辑卷、逻辑盘）
目录区、文件区
目录区存放文件目录信息、磁盘存储空间管理信息
文件区存放文件数据

2）管理方法

用什么方式记录、组织空闲块？
如何分配磁盘块？
如何回收磁盘块？

①空闲表法

如何分配磁盘块：与内存管理中的动态分区分配很类似，为一个文件分配连续的存储空间。同样可采用==首次适应、最佳适应、最坏适应==等算法来决定要为文件分配哪个区间。

如何回收磁盘块：与内存管理中的动态分区分配很类似，当回收某个存储区时需要有四种情况：

回收区的前后都没有相邻空闲区；
回收区的前后都是空闲区；
回收区前面是空闲区；
回收区后面是空闲区。总之，回收时需要注意表项的合并问题

适用于"连续分配方式"

②空闲链表法

空闲盘块链
1. 操作系统保存着链头、链尾指针 ；以盘块为单位组成一条空闲链
2. 如何分配：若某文件申请K个盘块，则从链头开始依次摘下K个盘块分配，并修改空闲链的链头指针；
3. 如何回收：回收的盘块依次挂到链尾，并修改空闲链的链尾指针。

适用于离散分配的物理结构。为文件分配多个盘块时可能要重复多次操作。

空闲盘区链
1. 操作系统保存着链头、链尾指针 ；以盘区为单位组成一条空闲链。
2. 如何分配：若某文件申请K个盘块，则可以采用首次适应、最佳适应等算法，从链头开始检索，按照算法规则找到一个大小符合要求的空闲盘区分配给文件。若没有合适的连续空闲块，也可以将不同盘区的盘块同时分配给一个文件，注意分配后可能要修改相应的链指针、盘区大小等数据；
3. 如何回收：若回收区和某个空闲盘区相邻，则需要将回收区合并到空闲盘区中。若回收区没有和任何空闲区相邻，将回收区作为单独的一个空闲盘区挂到链尾。

离散分配、连续分配都适用。为一个文件分配多个盘块时效率更高。

③位示图法

认识位示图法

计算对应盘块号：( 字号 , 位号 ) = ( i , j ) 的二进制位对应的盘块号 b = n*i + j

位示图：每个二进制位对应一个盘块。在本例中，"0"：代表盘块空闲："1"代表盘块已分配；

如何分配：若文件需要K个块，①顺序扫描位示图，找到K个相邻或不相邻的"0"；②根据字号、位号算出对应的盘块号，将相应盘块分配给文件；③将相应位设置为"1"。

如何回收：①根据回收的盘块号计算出对应的字号、位号；②)将相应二进制位设为"0"。
连续分配、离散分配都适用 ；注意0和1哪个是空闲 ；字号、位号、盘块从0还是1开始。

④成组链接法

UNIX系统中采用了成组链接法对磁盘空闲块进行管理。

空闲表法、空闲链表法不适用于大型文件系统，因为空闲表或空闲链表可能过大。成组链接法中文件卷的目录区中专门用一个磁盘块作为"超级块 "，当系统启动时需要将超级块读入内存 。并且要保证内存与外存 中的"超级块"数据一致。

注1：若已经没有下一组空闲快，此处设为某特殊值（例如-1）；

注2：一个分组中的块号不需要连续，此处只是为了让大家更方便看出各个分组的数量。

如何分配：

检查第一个分组的块数是否足够。1<100，因此是足够的
- 分配第一个分组中的1个空闲块，并修改相应数据。
检查第一个分组的块数是否足够。1=100，因此是足够的
- 分配第一个分组中的100个空闲块。但是由于300号块内存放了再下一组的信息，因此300号块的数据需要复制到超级块中。

如何回收：

假设每个分组最多为100个空闲块，此时第一个分组已有99个块，还要再回收一块
- 将回收的块放入到超级快的第一个分组的最后一个，并且超级块数量+1；
假设每个分组最多为100个空闲块，此时第一个分组已有100个块 ，还要再回收一块
- 需要将超级块中的数据复制到新回收的块中 ，并修改超级块的内容，让新回收的块成为第一个分组。

7、文件的基本操作

1）创建文件

操作系统在处理 Create 系统调用时，主要做了两件事：

在外存中找到文件所需的空间（可能采取的策略：空闲链表法、位示图、成组链接法等管理策略，找到空闲空间）；
根据文件存放路径的信息找到该目录对应的目录文件（例如：D:/Demo目录），在目录中创建该文件对应的目录项。目录项中包含了文件名、文件在外存中的存放位置等信息。

2）删除文件

操作系统在处理 Delete 系统调用时，主要做了几件事：

根据文件存放路径找到相应的目录文件，从目录中找到文件名对应的目录项；
根据该目录项记录的文件在外存的存放位置，文件大小等信息，回收文件占用的磁盘块。（回收磁盘块时，根据空闲表法、空闲链表法位图法等管理策略的不同，需要做不同的处理）。

3）打开文件

操作系统在处理open系统调用时，主要做了几件事：

根据文件存放路径找到相应的目录文件，从目录中找到文件名对应的的目录项，并检查该用户是否有指定的操作权限。
将目录项复制到内存中的"打开文件表"中 。并将对应表目的编号返回给用户。之后用户使用打开文件表的编号来指明要操作的文件。

系统会有两种打开文件表，一个是系统的，一个是用户进程的；

系统的打开文件表有一个打开计数器的项，用于记录某个文件被多少个用户进程所打开。这种模式的好处是，当有用户要删除该文件，需要打开计数器为0才能进行删除，即没有其他进程正在使用该文件。

用户进程的打开文件有两个项，分别是读写指针和访问权限，前者用于记录该进程对文件读/写操作进行的位置，后者是该进程可以对该文件进行的操作，例如只读、读写等。
将目录项中的信息复制到内存中的打开文件表中，并将打开文件表的**索引号（文件描述符）**返回给用户；

打开文件之后，对文件的操作不再需要每次都查询目录，可以根据内存中的打开文件表进行操作。

4）关闭文件

操作系统在处理 Close 系统调用时，主要做了几件事：

将进程的打开文件表相应表项删除；
回收分配给该文件的内存空间等资源；
系统打开文件表的打开计数器count减1 ，若count=0，则删除对应表项。

5）读文件

操作系统在处理 Read 系统调用时，会从读指针 指向的外存中，将用户指定大小的数据 读入用户指定的内存区域中。

打开文件并没有将数据读入内存，读文件时才将数据从外存读入内存。

6）写文件

操作系统在处理 write 系统调用时，会从用户指定的内存区域中，将指定大小的数据写回写指针指向的外存。

8、文件共享

1）硬链接

硬链接：基于索引结点的共享方式

各个用户的目录项指向同一个索引结点；
索引结点中需要有链接计数 count；
某用户想删除文件时，只是删除该用户的目录项，且count--；
只有 count == 0 时才能真正删除文件数据和索引结点，否则会导致指针悬空。

2）软链接

软链接：基于符号链的共享方式

在一个 Link 型 的文件中记录共享文件的存放路径（类似Windows 快捷方式）；
操作系统根据路径一层层查找目录，最终找到共享文件；
即使软链接指向的共享文件已被删除，Link型文件依然存在，只是通过 Link 型文件中的路径去查找共享文件会失败（找不到对应目录项）；
由于用软链接的方式访问共享文件时要查询多级目录，会有多次磁盘I/O，因此用软链接访问的速度不如硬链接。

9、文件保护

1）口令保护

为文件设置一个"口令 "，用户想要访问文件时需要提供口令，由系统验证口令是否正确；
实现开销小 ，但"口令"一般存放在FCB或索引结点 中（也就是存放在系统中），因此不太安全。

2）加密保护

用一个"密码"对文件加密，用户想要访问文件时，需要提供相同的"密码"才能正确的解密；
安全性高 ，但加密/解密需要耗费一定的时间（Eg：异或加密）。

3）访问控制

用一个访问控制表 （ACL）记录各个用户 （或各组用户）对文件的访问权限（数据库对用户的权限设定也类似）；
对文件的访问类型可以分为：读/写/执行/删除等；
实现灵活，可以实现复杂的文件保护功能。

如果对某个目录进行了访问权限的控制，那也要对目录下的所有文件进行相同的访问权限控制。

10、文件系统的层次结构

从上至下（操作系统到硬件设备）

用户接口：系统调用请求（Read、Write、Open、Close）
文件目录系统：FCB、索引结点
存取控制模块：验证权限，文件保护
逻辑文件系统与文件信息缓冲区：文件记录号，文件描述符，将其转换为逻辑地址
物理文件系统：将逻辑地址转换为物理地址
辅助分配模块：分配与回收存储空间
设备管理模块：直接与硬件交互，分配设备、缓冲区、磁盘调度、启动设备、释放设备

11、文件系统布局（新）

原始磁盘→物理格式化（低级格式化）→逻辑格式化（高级格式化）

物理格式化：划分扇区，检测坏扇区，并用备用扇区替换坏扇区；

逻辑格式化：磁盘分区（分卷Volume），完成各分区的文件系统初始化；

注：逻辑格式化后，灰色部分就有实际数据了，白色部分还没有数据。

文件系统在内存的结构

注：近期访问过的目录文件会缓存在内存中，不用每次都从磁盘读入，这样可以加快目录检索速度

以open操作为例：

12、虚拟文件系统（新）

1）虚拟文件系统

普通的文件系统

虚拟文件系统

①特点

向上层用户进程提供统一标准的系统调用接口，屏蔽底层具体文件系统的实现差异；
VFS要求下层的文件系统必须实现某些规定的函数功能，如：open/read/write。一个新的文件系统想要在某操作系统上被使用，就必须满足该操作系统VFS的要求；
每打开一个文件，VFS就在主存中新建一个vnode，用统一的数据结构表示文件，无论该文件存储在哪个文件系统。

②对数据的统一

不同的文件系统，表示文件数据结构各不相同。打开文件后，其在内存中的表示就不同。

打开文件后，创建vnode ，并将文件信息复制到vnode中，vnode的功能指针指向具体文件系统的函数功能。
注意：vnode只存在于主存中 ，而inode既会被调入主存，也会在外存中存储。

③函数功能指针

vnode的函数功能指针实际上是指向其他文件系统提供的函数功能，例如open、read、write等。

2）文件系统的挂载（安装）

文件系统挂载（mounting），即文件系统安装/装载------如何将一个文件系统挂载到操作系统中？

文件系统挂载要做的事

在VFS中注册新挂载的文件系统。内存中的挂载表（mount table）包含每个文件系统的相关信息，包括文件系统类型、容量大小等；
新挂载的文件系统，要向VFS提供一个函数地址列表；
将新文件系统加到挂载点（mount point)，也就是将新文件系统挂载在某个父目录下。

③函数功能指针

vnode的函数功能指针实际上是指向其他文件系统提供的函数功能，例如open、read、write等。

2）文件系统的挂载（安装）

文件系统挂载（mounting），即文件系统安装/装载------如何将一个文件系统挂载到操作系统中？

文件系统挂载要做的事

在VFS中注册新挂载的文件系统。内存中的挂载表（mount table）包含每个文件系统的相关信息，包括文件系统类型、容量大小等；
新挂载的文件系统，要向VFS提供一个函数地址列表；
将新文件系统加到挂载点（mount point)，也就是将新文件系统挂载在某个父目录下。

第4章 文件管理

1、整体概览

1）文件属性

2）文件数据组织

3）操作系统提供功能

4）文件的物理结构和存储空间管理

5）其他文件管理功能

2、逻辑结构VS物理结构

3、文件的逻辑结构

1）无结构文件

2）有结构文件

3）顺序文件

①链式存储

②顺序存储

4）索引文件

4、文件目录

1）文件目录的实现

2）目录结构

5、文件的物理结构

1）连续分配

2）链接分配

①隐式链接

②显式链接

3）索引分配

①链接方案

②)多层索引

③混合索引

④重点

6、文件存储空间管理

1）存储空间的划分与初始化

2）管理方法

①空闲表法

②空闲链表法

③位示图法

④成组链接法

7、文件的基本操作

1）创建文件

2）删除文件

3）打开文件

4）关闭文件

5）读文件

6）写文件

8、文件共享

1）硬链接

2）软链接

9、文件保护

1）口令保护

2）加密保护

3）访问控制

10、文件系统的层次结构

11、文件系统布局（新）

12、虚拟文件系统（新）

1）虚拟文件系统

①特点

②对数据的统一

③函数功能指针

2）文件系统的挂载（安装）

2）文件系统的挂载（安装）

第4章文件管理