Linux：文件系统初步理解

文章目录

文件的初步理解
C语言中对文件的接口
系统调用的接口
- 位图的理解
- open调用接口
文件和进程的关系
- 进程和文件的低耦合
如何理解一切皆文件？

本篇总结的是关于Linux中文件的各种知识

文件的初步理解

在前面的文章中有两个观点，1. 文件 = 内容 + 属性 ，2. Linux下一切皆文件，因此就要对这两个观点进行阐述

首先，文件 = 内容 + 属性

不管是在什么平台下进行操作文件，无非只能对两个方面进行操作，对于内容做操作，和对于属性做操作，而内容和属性实际上都是数据，举一个最简单的例子，一个空文件占用内存吗？答案是占用的，因为文件在内存中不仅要存储内容，它还要存储对应的属性

如何访问文件？

想要访问一个文件，首先要找到它，文件在哪？

文件一般而言都是存储在磁盘中的，而磁盘是属于外部设备，由冯诺依曼体系可以知道，想要访问外部设备，一定要先加载到内存中，加载到内存中才能让CPU对文件进行访问，那么这些操作是交给谁来做？答案当然是操作系统

访问文件的过程？

想要访问文件，首先要把这个文件打开，那么谁来打开？如何打开？打开前和打开后对于文件而言有什么变化呢？该如何理解打开的这个过程呢？

对于上面的这些问题，简单阐述的结果如下：

谁打开文件？答案是进程，说操作系统也不为过。进程可以对文件进行打开的操作

如何打开？在系统调用中有专门的接口用以打开文件，下面对这句进行更深入的解释

如何理解打开的过程？打开前，对于文件来说就是磁盘上的一个数据而已，但是在打开后，会把文件加载到内存中，其次可以对文件进行各种的管理

进程可以打开多个文件？

当然可以，不仅如此，文件被加载到内存中，操作系统作为内存当中的大管理者，对于文件的操作是必不可少的，那既然要管理，管理的一定就是文件的各种属性，所以根据前面对于进程的经验来看，对于文件的描述是肯定必不可少的，也就是说，文件也会和进程一样，有专门的task_struct来对它进行描述

进程想要打开这个文件，就要委托给管理者来帮它打开，而操作系统作为管理者会提供多种多样的系统调用接口，来供给进程完成它想要完成的操作

文件的分类

从文件是否被打开的角度来看，文件总体上会分为：被打开的文件和没有被打开的文件

C语言中对文件的接口

C语言中对文件的接口，下面来进行举例论证

w进行写入

c 复制代码

// 测试文件的各种接口
void testCfile1()
{
    // 以w的方式打开文件
    FILE* fp = fopen("log.txt", "w");
    if(fp == NULL)
    {
        perror("fopen fail\n");
        exit(1);
    }
    fclose(fp);
}

w是写的形式写入，并且会清空文件的内容：

a进行写入

c 复制代码

void testCfile2()
{
    // 以a的方式打开文件
    FILE* fp = fopen("log.txt", "a");
    if(fp == NULL)
    {
        perror("fopen fail\n");
        exit(1);
    }
    fclose(fp);
}

此时，文件内容就没有被修改了，a表示append，表示追加的意思，不会打破原始的数据

文件数据的写入

c 复制代码

void testCfile3()
{
    // 向文件中写入信息
    FILE* fp = fopen("log.txt", "a");
    const char *msg = "hello linux\n";
    if(fp == NULL)
    {
        perror("fopen fail\n");
        exit(1);
    }
    fputs(msg, fp);
    fclose(fp);
}

系统调用的接口

在系统接口中，一定有关于文件的系统调用，那么下面对于文件的系统调用进行一些总结：

系统调用---open

上面关于open系统调用中有三个参数，第一个是路径名，第二个是传递的方式，关于这个传递的方式下面进行讲解，第三个参数是打开文件时，如果需要创建文件，所创建的权限是多少

位图的原理

上面这些就是第二个参数所对应的一些参数，在系统调用中存在多种打开模式，比如可以只读只写等等...这些调用的接口都可以在底层系统调用中进行任意的选择，那下面首先对位图的原理进行理解：

位图的理解

c 复制代码

#include <stdio.h>

#define Print1 1      // 0001
#define Print2 (1<<1) // 0010
#define Print3 (1<<2) // 0100
#define Print4 (1<<3) // 1000

void Print(int flags)
{
    if(flags & Print1) printf("hello 1\n");
    if(flags & Print2) printf("hello 2\n");
    if(flags & Print3) printf("hello 3\n");
    if(flags & Print4) printf("hello 4\n");
}

int main()
{
    Print(Print1);
    Print(Print1 | Print2);
    Print(Print1 | Print2 | Print3);
    Print(Print3 | Print4);
    Print(Print4);
    return 0;
}

对于上述代码就是所谓位图的理解，当传入一个参数flag之后，位图中的每一个二进制位都代表不同的值，而这个值就代表着不同的系统调用的功能，抛开函数封装不谈，上面的函数如果直观的从main函数来看，就是传入Print1，就调用Print1的功能，以此类推，因此在系统调用的接口中也和上述的原理类似，传入了什么类型的系统调用参数，那么我就执行对应的系统调用，这是一个道理

基于这个原因，就可以理解系统调用与位图的结合，共同帮助使用各种系统调用的功能，在Linux中，这种传参的方式叫做标志位传参，这也是Linux中最常用的一种传参方式，那么下面对系统调用进行更进一步的使用和理解

open调用接口

c 复制代码

// 测试系统调用的接口
void testOS1()
{
    int fd = open("log.txt", O_WRONLY | O_CREAT | O_TRUNC);
    if(fd < 0)
    {
        perror("open fail\n");
        exit(1);
    }
    close(fd);
}

上面的代码就是利用系统调用的接口来实现了一个以写的方式/创建文件/清除内容的形式来打开了一个文件，但是创建结果却异常了：

报红了，为什么呢？原因是因为，没有设置对应的权限值，创建一个文件，却没有给予它对应的权限，这样创建出来的文件，Linux系统不知道它是要干什么的，因此会标红提示用户进行处理，解决方案也很简单，只需要在第三个参数中给他传递对应的权限大小的参数即可

至于为什么没有按照想要的权限创建，这是因为Linux系统内部有其对应的权限掩码，创建的任何文件都会被权限掩码屏蔽掉对应的权限，可以在函数前设置umask(0)来解决这个问题

那么这里就初步的对文件有了基本认知，但是还有一个问题没有解决，open系统调用会返回一个int类型的数据，这个值是干什么的呢？

c 复制代码

void testOS2()
{
    int fd = open("log.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);
    if(fd < 0)
    {
        perror("open fail\n");
        exit(1);
    }
    printf("fd : %d\n", fd);
    close(fd);
}

这个值是3，那么这个值代表什么意思呢？

文件和进程的关系

这个3，是什么意思？如何理解3？

这个3，其实代表的是这个进程打开了多少个文件，也就是说前面还有0 1 2三个文件已经被打开了，那这三个文件是什么？

在进程启动的时候，系统会默认的为进程打开三个文件：stdin,stdout,stderr，正是因为有这三个文件，使用者才能对于任意一个进程都可以进行数据的写入和读取，这是这三个文件带来的功能

解释完3的意义，那C语言的库函数和系统调用之间究竟有什么关系呢？如何理解呢？

fopen函数是C语言库中给使用者准备好的库函数，这个库函数实际上内部封装的系统调用就是open这个系统调用，那么下面就走进内存的视角，来看进程和文件究竟是一种什么样子的关系？

进程和文件的低耦合

先画下面的一张图，根据这张图引出结论：

上面这张图是什么意思呢？该如何理解这张图呢？

创建了一个进程，就一定会创建进程对应的PCB文件，这是一定的，而在进程的PCB中存在一个结构体指针，这个结构体指针指向了一个叫做进程文件描述符表的结构体，而在这个结构体中，存储的是一个一个的文件描述符指针，而前面所谓的0 1 2 3实际上就是对应的下标

而进程文件描述符表中的这个结构体指针数组，每一个指针就会指向一个文件描述符，而文件描述符都会被通过某种方式链接在一起，文件描述符被创建就是当磁盘中的数据被读取到内存中时，就会为这个文件创建一个独属于它的文件描述符，这样就可以大体上把进程和文件分割开，文件隶属于文件的部分内容，进程隶属于进程的部分内容，它们之间通过一个文件的指针数组联系起来

在Linux内核源码中找内容：

PCB中含有进程描述符表的地址

进程文件描述符中含有文件描述符的指针数组

文件描述符的定义

文件描述符的连接情况

由此引出一个结论，操作系统访问文件，只识别的是文件描述符，不管通过多少次调用，最终的最终还是会识别到文件描述符

如何理解一切皆文件？

通过上面的原理，得出的初步结论是，操作系统访问文件只认文件操作符，而前面已经建立起了一些认知，例如一切皆文件，那么什么是一切皆文件？又该如何理解这句话呢？

一切皆文件

对于文件描述符中，它当中一定会包含有读选项和写选项，只有对文件可以进行读取和写入，才能正在意义上的称得上是对文件进行管理，那么问题来了，既然一切皆文件，那么对于键盘显示器网卡等等的硬件设备，该如何进行写入呢，是不是意味着它们也会有所谓的文件描述符呢？

答案是肯定的，既然被称得上是文件，那么操作系统一定可以去管理它们，既然可以去管理它们，那么操作系统一定会为它们建立文件描述符，所以不管是什么硬件，每一个硬件都会有它所对应的文件描述符方便于操作系统进行管理

硬件的读写方法是根据不同的硬件肯定是不一样的，那么对于每一个硬件都会有它独属的读取和写入的函数方法，在有了对应硬件的读写方法后，就通过函数指针的方式写入了硬件所对应的文件描述符中，这样就可以在硬件的文件描述符中找到它所专属于的写入和读取的方法，进而进行一系列调用，这样就能把硬件和软件连接在一起

VFS--虚拟文件系统

在文件系统中，可以把硬件对应的文件描述符看成是一种虚拟的文件系统，通过这样的文件系统可以近似的把硬件设备的各种信息转换到内存中方便于进行管理，而这个虚拟文件系统和对应的调用方法之间的关系，就有些类似于基类和子类的关系，这是不是就是所谓的多态呢？对于不同的内容可以使用不同的方式进行调用，进而实现不同的功能

通过上面的理解，其实已经对一切皆文件这个概念有了进一步的认知，一切皆文件，不管是硬件层面还是软件层面，即使是用户肉眼可以看到的键盘显示器等等，操作系统也会把他们当成文件来处理，处理的方式就是对它们建立对应的文件描述符，而文件描述符中含有的函数指针会近似于用一种多态的方式实现对硬件的读取和写入的功能，这样就实现了对硬件的资源管理

现在就可以理解，为什么进程在运行的时候，会默认打开三个文件：标准输入，标准输出，标准错误文件流了！这样就可以保证在编写程序的时候，可以使用默认的代码进行编写