Linux 文件系统之 --- ext4文件系统简介

PS:要转载请注明出处,本人版权所有。

PS: 这个只是基于《我自己》的理解,

如果和你的原则及想法相冲突,请谅解,勿喷。

环境说明

前言


在linux下面,常见的linux fs就是ext系列,linux里面的vfs也和这个ext fs息息相关。本文主要详解一下ext4 fs的实现原理,并且,从文件操作的角度来看,ext4 fs是怎么实现这一系列工作的。

一些基本知识


常见的硬盘有两种类别:

  • 传统硬盘(HDD,Hard Disk Drive)
  • 固态硬盘(SSD,Solid State Drive)

其实稍微对硬盘有一点了解的人都知道,这两者硬盘的结构和原理是完全不一样的(具体可看很多网上的相关资料)。

对于HDD来说,其是有磁头、盘片、马达等构成,盘片概念中又可以得到扇区、柱面的概念。根据这些物理的技术事实,引出了CHS(柱面数(Cylinders)、磁头数(Headers)、扇区数(Sectors))寻址方式。后面经过发展,又有了LBA(Logic Block Address)寻址方式(具体可看很多网上的相关资料))。

格式化

这里的格式化有两种:

  • 低级格式化
  • 高级格式化

对于低级格式化来说,一般是硬盘厂家格式化好的,对磁盘的一些基本参数进行设置。

对于高级格式化来说,这就是我们用户普遍开始接触使用硬盘的第一步,我们后续解释ext的文件系统,也是基本是高级格式化来完成的。

扇区介绍

对于上层用户来说, 描述一个磁盘的相关属性使用扇区来描述,一个扇区一般是512字节,磁盘总容量是扇区数*512字节。

什么是文件系统?

文件系统是指通过什么样的结构来组织数据的存储方式。具体来说,就是怎么对某一个文件进行定位和操作。一个基本的fs例子可以参考以前我写的关于FAT文件系统的组织方式(《FAT32 文件系统详解》 https://blog.csdn.net/u011728480/article/details/58049184 )。

EXT4文件系统的组织方式


ext4 fs的简介与宏观结构

ext4 fs的基本存储单位是block,一个block可能由多个扇区组成,对于ext4来说,其有以下的一些基本属性:

  • 一个block的大小可能是:1k-64k,并且其扇区的个数必须是2的指数,其大小是由mkfs来确定的。
  • 多个block可以组成一个更大的单位,叫做block group。
  • 一般情况下,一个文件系统可以最多有2^32个block。如果ext4文件系统启用了64位的特性,那么其最多可以有2^64个block。

从上面可以知道ext4 fs可以描述的磁盘容量大小和我们创建文件系统时的参数有关,有兴趣可以去看参考小节的文档。

ext4 fs的宏观结构如下:

block group 0 block group 1 ... ... block group n-1 block group n

对于block group 0 来说:

Group 0 Padding ext4 Super Block Group Descriptors Reserved GDT Blocks Data Block Bitmap inode Bitmap inode Table Data Blocks
1024 bytes 1 block many blocks many blocks 1 block 1 block many blocks many more blocks

对于block group n(n != 0) 来说:

ext4 Super Block(可选) Group Descriptors(可选) Reserved GDT Blocks(可选) Data Block Bitmap inode Bitmap inode Table Data Blocks
1 block many blocks many blocks 1 block 1 block many blocks many more blocks

从上面的三个表格可以知道,ext4fs是由多个block group构成,其中block group0有一个1k的填充部分,这部分主要是兼容以前老旧的引导分区使用。其他block group并没有这1k的填充部分。

下面我们分别详解block group中的具体每个部分是什么内容,以block_size是4k为例。

ext4 Super Block

我们先来看看fs/ext4/ext4.h里面定义的内容:

c 复制代码
/*
 * Structure of the super block
 */
struct ext4_super_block {
    __le32	s_inodes_count;		/* Inodes count */
	__le32	s_blocks_count_lo;	/* Blocks count */
    
    ... ...

    __le32	s_log_block_size;	/* Block size */

    ... ...

    __le32	s_blocks_per_group;	/* # Blocks per group */

    ... ...
}

从这个定义可以看出,ext4_super_block 包含了很多ext4 fs的meta信息,例如:inode个数,blocks个数,block大小,每个组里面的block大小。我们可以使用dumpfs命令来查看superblock的信息,如下:

注意看,对于block group n(n != 0)来说,ext4 Super Block、Group Descriptors等重要的结构是可选的,这里就涉及到ext的另外一个概念,通过备份这些重要的数据结构在不同的block group中,当block group 0数据损坏时,可以从其他分区尝试恢复。

Group Descriptors

组描述符是一个数据结构,其数据是第二个block开始,其定义如下:

c 复制代码
/*
 * Structure of a blocks group descriptor
 */
struct ext4_group_desc
{
	__le32	bg_block_bitmap_lo;	/* Blocks bitmap block */
	__le32	bg_inode_bitmap_lo;	/* Inodes bitmap block */
	__le32	bg_inode_table_lo;	/* Inodes table block */
	__le16	bg_free_blocks_count_lo;/* Free blocks count */
	__le16	bg_free_inodes_count_lo;/* Free inodes count */
	__le16	bg_used_dirs_count_lo;	/* Directories count */
	__le16	bg_flags;		/* EXT4_BG_flags (INODE_UNINIT, etc) */
	__le32  bg_exclude_bitmap_lo;   /* Exclude bitmap for snapshots */
	__le16  bg_block_bitmap_csum_lo;/* crc32c(s_uuid+grp_num+bbitmap) LE */
	__le16  bg_inode_bitmap_csum_lo;/* crc32c(s_uuid+grp_num+ibitmap) LE */
	__le16  bg_itable_unused_lo;	/* Unused inodes count */
	__le16  bg_checksum;		/* crc16(sb_uuid+group+desc) */
	__le32	bg_block_bitmap_hi;	/* Blocks bitmap block MSB */
	__le32	bg_inode_bitmap_hi;	/* Inodes bitmap block MSB */
	__le32	bg_inode_table_hi;	/* Inodes table block MSB */
	__le16	bg_free_blocks_count_hi;/* Free blocks count MSB */
	__le16	bg_free_inodes_count_hi;/* Free inodes count MSB */
	__le16	bg_used_dirs_count_hi;	/* Directories count MSB */
	__le16  bg_itable_unused_hi;    /* Unused inodes count MSB */
	__le32  bg_exclude_bitmap_hi;   /* Exclude bitmap block MSB */
	__le16  bg_block_bitmap_csum_hi;/* crc32c(s_uuid+grp_num+bbitmap) BE */
	__le16  bg_inode_bitmap_csum_hi;/* crc32c(s_uuid+grp_num+ibitmap) BE */
	__u32   bg_reserved;
};

其实从这里可以看到,根据组描述符,我们可以知道后面三个重要的区块(Data Block Bitmap/inode Bitmap/inode Table)的block号,也就定位到这3个重要的区块了。

但是这里有一个问题是需要我们处理的,就是组描述符是一个数组,它描述了多个block group,那么我们怎么知道有多少个组描述呢?那就是直接用superblock里面的s_blocks_count_lo/s_blocks_per_group就得到了有多个group descriptor。

同理,我们可以使用dumpfs命令来查看group descriptor 0的信息(block group 0),如下:

注意,上面的Reserved GDT Blocks是用做以后扩充group descriptor使用的(也就是扩充extfs容量)。

Data Block Bitmap

data block bitmap主要就是使用bitmap描述data block的使用情况。其起始位置是group descriptor中的bg_block_bitmap_lo来确定的。

以block_size是4k为例,那么我们能够通过bitmap来描述的block个数为:4 * 1024 * 8 = 32768,通过上面的知识可以看到,恰好对应一个block group的大小。

inode Bitmap

inode bitmap和data block bitmap类似,用于描述inode的使用情况。其起始位置是group descriptor中的bg_inode_bitmap_lo来确定的。后面我们会关联到这个地方的知识点。

以block_size是4k为例,同上,我们最多只能有32768个inode。

这里提到的inode概念可以先不管,你可以把一个inode当做一个文件的抽象概念来处理。inode这个概念在linux vfs和ext4 fs都会使用到,而且是相互关联的。

inode Table

inode Table 是由一个个ext4_inode组成的数组。ext4_inode定义如下:

c 复制代码
/*
 * Structure of an inode on the disk
 */
struct ext4_inode {

    __le16	i_mode;		/* File mode */
	__le16	i_uid;		/* Low 16 bits of Owner Uid */

    ... ...

    __le32	i_blocks_lo;	/* Blocks count */

    ... ... 

    __le32	i_block[EXT4_N_BLOCKS];/* Pointers to blocks */

    ... ... 
}

从上面可以简单知道,这里有一个文件的属性、大小、数据block的指针等等。ext4_inode可以描述一个文件的基本信息,这个结构将会在本系列文章中的vfs里面介绍。linux提供了stat命令来获取这个结构的信息,例如下图:

从图中可知,我们可以知道inode的序号、inode包含的blocks的个数,以及文件其他属性等等。

此外根据其数据结构可以知道,ext4_inode的文件大小上限由EXT4_N_BLOCKS=15个block决定,从理论上来说,如果大于这个尺寸的ext采取的是通过类似间接寻址的方式。对于ext4 fs来说,对这个间接寻址做了详细介绍,下面我们对这种间接寻址做一点简单说明(以block_size=4k为例):

  • ext4_inode.i_block数组中的0~11数据块,直接填写到这个数组。到这里,我们支持的最大文件大小为12 * block_size。
  • 当文件大小大于12 * block_size时,那么启用一级映射,ext4_inode.i_block数组的第12个指向的数据块是一个索引数据块,其包含了真实文件数据的block的索引。对于block_size=4k来说,那么可以间接映射block_size/sizeof(__le32)=1024个block。到这里,我们支持的最大文件大小为(12 + block_size/4) * block_size。
  • 当文件大小大于(12 + block_size/4) * block_size,启用二级映射,ext4_inode.i_block数组的第13个指向的数据块是一级映射数据块,后面规则和一级映射一致。到这里,我们支持的最大文件大小为(12 + block_size/4 + (block_size/4)^2 ) * block_size。
  • 当文件大小大于(12 + block_size/4 + (block_size/4)^2 ) * block_size,启用三级映射,ext4_inode.i_block数组的第14个指向的数据块是二级映射数据块,后面规则和二级映射一致。到这里,我们支持的最大文件大小为(12 + block_size/4 + (block_size/4)^2 + (block_size/4)^3) * block_size。

其实从上面来看,如果我们存储和访问一个大文件,由于机制的原因,效率是非常底下的,因此ext4 fs里面有一个flex_bg特性,可以用更高效的extent tree数据结构来描述大文件。本文不对这个做介绍。

此外,ext4 fs预留了一些特殊inode的编号,他们如下图表格:

inode Number Purpose
0 Doesn't exist; there is no inode 0.
1 List of defective blocks.
2 Root directory.
3 User quota.
4 Group quota.
5 Boot loader.
6 Undelete directory.
7 Reserved group descriptors inode. ("resize inode")
8 Journal inode.

这里面对我们来说,最有用的就是inode=2的inode节点,它是代表这个文件系统的根目录。这个根目录在vfs挂载文件系统的时候,有重要作用。

对于多个block group来说,其每个inode Table大小是一定的,这个在super block里面就定义了,例如上文图中"Inodes per group:8192"代表每个block group有8192个inode。当我们mkfs.ext4时,inode的数量是固定了,我们可以修改这个参数来适应一些特殊情况,例如:inode满了,但是磁盘空间没有占满,这个是属于优化项了,这里不做讨论。如下图,df -i可以查看fs的inode使用信息,df -h是fs的磁盘容量信息:

从图中的根目录分区来看,他们的inode占用和容量占用完全不一致,如图来说,可能是容量用完了,但是inode没有用完,可是有另外一种情况,那就是容量没有用完,inode用完了,一般出现在存放很多小文件的ext4fs。

这里还有一个重要的信息,我们知道有多个block group,且每个block group一定有Data Block Bitmap、inode Bitmap、inode Table。其中有一个很重要的概念就是每个block group的inode Table里面的inode序号是连续的。

Data Blocks

data blocks就是文件的真实数据块,由ext4_inode来指定。

目录

就上面我们描述的内容来看,我们可以通过一个inode来描述一个文件了,但是还有一类我们常见的类型:目录,却没有提到。

其实对于文件系统来说,目录也是文件,也是通过inode来描述的,在上文,其实我们提到了inode=2的indoe节点,它就是根目录项,也是解析ext4fs的起点。

传统来说,对于目录的inode,其指向的block是基于目录项的数组(新的ext4 fs还有hash目录,其在ext3 引入,可以提升目录操作性能, 本文不做介绍),一个对于目录项来说,有两个结构:

c 复制代码
struct ext4_dir_entry {
	__le32	inode;			/* Inode number */
	__le16	rec_len;		/* Directory entry length */
	__le16	name_len;		/* Name length */
	char	name[EXT4_NAME_LEN];	/* File name */
};
c 复制代码
/*
 * The new version of the directory entry.  Since EXT4 structures are
 * stored in intel byte order, and the name_len field could never be
 * bigger than 255 chars, it's safe to reclaim the extra byte for the
 * file_type field.
 */
struct ext4_dir_entry_2 {
	__le32	inode;			/* Inode number */
	__le16	rec_len;		/* Directory entry length */
	__u8	name_len;		/* Name length */
	__u8	file_type;		/* See file type macros EXT4_FT_* below */
	char	name[EXT4_NAME_LEN];	/* File name */
};

对于我们常用的ext4fs系统来说,启用了filetype这个特性,就是用的ext4_dir_entry_2这个结构。注意这个结构和linux用户态的struct dirent有直接关联,后面有缘可以介绍一下rewinddir/readdir等接口的使用。

对于目录项来说,除了inode序号外,最重要的就是file_type信息了,他们的典型值如下:

Value Description
0x0 Unknown.
0x1 Regular file.
0x2 Directory.
0x3 Character device file.
0x4 Block device file.
0x5 FIFO.
0x6 Socket.
0x7 Symbolic link.

这里面最重要的type就是1和2,一个代表普通文件,一个代表目录。

有了这个数据结构介绍,我们就介绍完了ext4fs的基本组织形式,下面我们通过文件的基本操作来整体感受一下这种组织方式。

文件的操作与文件系统的组织方式


其实这里的文件操作与vfs有关联,但是现在我们就当做没有vfs。如果有上面基础的情况下,我们怎么写一个驱动来在ext4fs上操作文件。后面都是一些直白想法,要了解具体细节,移步本文后续系列,关于VFS的一点点资料。

对于文件的操作来说,我们第一步要定位这个文件。如果要定位这个文件,那么我们就需要这个文件的绝对路径。下面对于文本文件:/tmp/test.lg,我们看看怎么定位它:

  • 首先根据ext4 Super Block得到Group Descriptors的属性,然后得到block group0 的 Group Descriptors的属性,最后得到block group0 的inode table/inode bitmap/data blocks bitmap。
  • 根据block group0中的inode table[2]得到这个文件系统根目录的数据块,然后根据ext4_dir_entry_2来递归的解析出ext4fs的所有文件目录树。
  • 根据/tmp/test.lg文件的绝对路径信息,结合上面我们的文件目录树,我们首先解析了"/"的目录项数组,得到了tmp目录的目录inode信息。然后根据tmp目录的目录项数组,得到了test.lg的inode信息。到这里,我们成功得到了文件的inode序号。
  • 根据得到的inode序号,做相关的操作(读、写、创建、删除)。

其实上面我们操作一个文件的过程,在真正的linux系统中,由vfs和ext4fs驱动帮我们做了大量工作,具体我们到时候在vfs文章中来做一个文件操作的介绍。

后记


从本文和本人之前的文章中关于FAT文件系统的介绍来看,其实文件系统的核心在于:给定一个存储的介质,在这个存储介质上是怎么存放文件的,比如建议分组,建立映射等等。

参考文献


打赏、订阅、收藏、丢香蕉、硬币,请关注公众号(攻城狮的搬砖之路)

PS: 请尊重原创,不喜勿喷。

PS: 要转载请注明出处,本人版权所有。

PS: 有问题请留言,看到后我会第一时间回复。