kernel version: 5.1.0

现象

XFS 文件系统出现挂起（hung），业务进程大量处于 D 状态；多处堆栈显示卡在 xfs_iget 与 xfs_fs_destroy_inode 路径上。

诊断过程

解析xfs_buf地址，顺着 xfs_buf → xfs_trans → xlog_ticket → task_struct.pid 反查，锁持有者落到下一条堆栈（关键堆栈2）。

关联关系：堆栈2 持有 AGF → 堆栈1 需要 AGF；堆栈1 持有 inode/inode-bp → 堆栈2 需要 inode-bp；互相等待形成系统级挂起（xfs hung + iget 死循环）。

两个进程：

进程 1（销毁文件）：正在删除文件、回收 inode；
进程 2（创建文件） ：正在分配新的 inode。
两个进程都要去改 XFS 的元数据结构，尤其是：
AGF（空闲块信息）
AGI（inode 信息）
inode cluster buffer（一组 inode 的缓存块）
这几个结构之间是要上锁的。如果 A 拿着 inode 的锁再去要 AGF 的锁，而 B 拿着 AGF 的锁再去要 inode 的锁，就会变成 "你等我，我等你" ------ 这就是典型的死锁（deadlock） 。
于是，整个 XFS 文件系统"挂死"（hung），看到的就是：
postgres 进程全在 D 状态；
xfs_iget 死循环；

补丁：xfs: use deferred frees for btree block freeing（commit b742d7b4f0e03...）
核心思想 ：把"立刻释放"改为"延迟释放"。
技术上怎么实现的：

把原来直接调用的
xfs_free_extent() 改成了 xfs_free_extent_later()。
意思是： "我先把要释放的块记录到一个待办列表（deferred list）里，等当前事务快提交时再一起处理。"
提交阶段，这些"待释放块"会被系统安全地处理：
- 如果空间紧张，可以分多次提交；
- 不会在持有其他锁时再去改 AGF；
- 因此避免了死锁的条件。
同时引入了一个 xefi_agresv 参数，
确保延迟释放的块仍然走正确的空闲空间管理逻辑（防止把 AG 专用块搞乱）。