Kernel中的cgroup2介绍

Control Group v2

原文：

https://docs.kernel.org/admin-guide/cgroup-v2.html

日期：2015年10月

作者：Tejun Heo（Linux内核维护者）

文档说明

本文档是cgroup v2的官方设计规范，完整描述其用户态可见的接口与行为，包括：

•核心架构设计原则

•所有控制器的具体行为规范

•系统级约束与约定

版本要求：所有后续修改必须同步更新本文档。

v1文档位置：Documentation/admin-guide/cgroup-v1/index.rst

Tejun Heo 是 Linux 内核的重要维护者，尤其在控制组（cgroups）领域做出了重大贡献。以下是关于他的主要事迹介绍：

cgroups 子系统维护者

Tejun Heo 是 Linux 内核中控制组（cgroups）子系统的核心维护者，主导了 cgroups v2 的设计与实现。

他解决了 cgroups v1 的许多设计缺陷（如多层级复杂性、线程粒度和资源竞争问题），推动了更简洁、统一的 cgroups v2 架构。

cgroups v2 的设计

统一层级：cgroups v2 采用单一层级结构，避免了 v1 多层级导致的混乱。

线程粒度支持：通过 cgroup.threads文件支持线程级资源控制，解决了 v1 中进程与线程混合管理的难题。

资源分配模型改进：引入权重（weight）、限制（max）、保护（low）等更清晰的资源分配策略。

其他内核贡献

块设备层（Block Layer）：优化 I/O 调度和存储性能。

工作队列（Workqueue）：重构了内核异步任务处理机制，提升效率和可维护性。

社区影响

他的工作被容器技术（如 Docker、Kubernetes）广泛依赖，cgroups v2 成为现代 Linux 资源管理的标准。

通过邮件列表和内核峰会积极推动技术讨论，以严谨的工程态度著称。

个人风格

以解决复杂系统问题见长，代码注重长期可维护性。

在 2015 年的文档中，他明确了 cgroups v2 的设计原则，强调简洁性和一致性。

Tejun Heo 的贡献使得 Linux 资源管理更加高效和可靠，为云计算和容器化技术奠定了坚实基础。

介绍

术语

复制代码

"cgroup" 是 "control group" 的缩写，且永远不大写。单数形式用于指代整个功能特性，也作为限定词使用，如 "cgroup controllers"。当明确指代多个独立的控制组时，使用复数形式 "cgroups"。

什么是cgroup？

复制代码

cgroup是一种将进程按层级结构组织起来，并以可控且可配置的方式沿层级分配系统资源的机制。

cgroup主要由两部分组成------核心部分和控制器。cgroup核心主要负责按层级组织进程。cgroup控制器通常负责沿层级分配特定类型的系统资源，但也存在一些实用控制器，其用途并非资源分配。

cgroups形成树状结构，系统中的每个进程都只属于一个cgroup。一个进程的所有线程都属于同一个cgroup。创建时，所有进程都会被放入父进程当时所属的cgroup中。进程可以被迁移到另一个cgroup。进程的迁移不会影响已存在的子进程。

在遵循特定结构约束的前提下，可以有针对性地在cgroup上启用或禁用控制器。所有控制器的行为都是层级化的------如果在某个cgroup上启用了控制器，它将影响属于该cgroup及其包含的整个子层级中所有cgroup的进程。当在嵌套的cgroup上启用控制器时，它总是会进一步限制资源分配。层级中靠近根节点设置的资源限制不能被远离根节点的设置覆盖。

基础操作

挂载

与v1不同，cgroup v2只有单一层级结构。可通过以下命令挂载cgroup v2层级：

mount -t cgroup2 none $MOUNT_POINT

cgroup2文件系统的魔数为

0x63677270

（"cgrp"）。所有支持v2且未绑定到v1层级的控制器会自动绑定到v2层级，并显示在根目录下。未在v2层级中活跃使用的控制器可绑定到其他层级。这允许以完全向后兼容的方式混合v2层级与传统的v1多层级结构。

控制器只有在当前层级不再被引用时才能跨层级移动。由于每个cgroup的控制器状态是异步销毁的，且控制器可能存在残留引用，因此在最终卸载前一层级后，控制器可能不会立即出现在v2层级上。同样，控制器需要完全禁用才能从统一层级中移出，且禁用后的控制器可能需要一些时间才能用于其他层级。此外，由于控制器间的依赖关系，可能需要同时禁用其他控制器。

虽然动态移动控制器对开发和手动配置有用，但强烈不建议在生产环境中动态切换v2和其他层级。建议在系统启动后使用控制器之前，就确定层级结构和控制器关联。

在过渡到v2期间，系统管理软件可能仍会在启动时自动挂载v1 cgroup文件系统，从而在手动干预之前劫持所有控制器。为了方便测试和实验，内核参数

cgroup_no_v1=

可以禁用v1控制器，使其始终在v2中可用。

cgroup v2目前支持以下挂载选项：

'nsdelegate

将cgroup命名空间视为委托边界。此选项是系统范围的，只能在挂载时设置或通过init命名空间重新挂载修改。非init命名空间的挂载会忽略此选项。详情请参阅"委托"部分。

favordynmods

以增加fork和exit等热路径操作为代价，减少动态cgroup修改（如任务迁移和控制器开关）的延迟。创建cgroup、启用控制器并通过

CLONE_INTO_CGROUP

初始化的静态使用模式不受此选项影响。

memory_localevents

仅填充当前cgroup的

memory.events

数据，不包括子树。这是传统行为，默认行为（无此选项）是包含子树计数。此选项是系统范围的，只能在挂载时设置或通过init命名空间重新挂载修改。非init命名空间的挂载会忽略此选项。

memory_recursiveprot

递归地将

memory.min

和

memory.low

保护应用于整个子树，无需显式向下传播到叶子cgroup。这允许保护整个子树彼此不受干扰，同时保留这些子树内部的自由竞争。这本应是默认行为，但作为挂载选项以避免破坏依赖原始语义的设置（例如在更高树级别指定虚假的高"绕过"保护值）。

memory_hugetlb_accounting

将HugeTLB内存使用计入cgroup的总体内存使用（用于统计报告和内存保护）。这是一种新行为，可能影响现有设置，因此必须通过此挂载选项显式启用。

需要注意以下几点：

内存控制器不涉及HugeTLB池管理。预分配的池不属于任何人。具体来说，当新HugeTLB folio分配到池时，从内存控制器的角度看不会被计入。只有在实际使用时（例如在缺页时）才会计入cgroup。主机内存超配管理在配置硬限制时需考虑这一点。通常，HugeTLB池管理应通过其他机制（如HugeTLB控制器）完成。

未能将HugeTLB folio计入内存控制器会导致

SIGBUS

。即使HugeTLB池仍有可用页面（但达到cgroup限制且回收尝试失败），也可能发生这种情况。

将HugeTLB内存计入内存控制器会影响内存保护和回收动态。任何用户空间调优（如调整low、min限制）都需要考虑这一点。

未选择此选项时使用的HugeTLB页面不会被内存控制器跟踪（即使后续重新挂载cgroup v2）。

pids_localevents

此选项恢复

pids.events:max

的v1类行为，即仅统计本地（cgroup内部）的fork失败。无此选项时，

pids.events.max

表示cgroup子树中的任何

pids.max

强制执行。

线程管理

复制代码

cgroup v2支持对部分控制器实现线程粒度控制，以满足跨进程线程组的层级资源分配需求。默认情况下，进程的所有线程属于同一cgroup（该cgroup也作为非线程专属资源消耗的宿主域）。线程模式允许线程分散在子树中，同时为它们维护公共资源域。

支持线程模式的控制器称为

线程化控制器

（threaded controllers），不支持的称为

域控制器

（domain controllers）。

复制代码

将cgroup标记为线程化会使其作为线程化cgroup加入父cgroup的资源域。父cgroup可能是另一个线程化cgroup（其资源域在层级中更靠上）。线程化子树的根（即最近的未线程化祖先）称为

线程化域

或

线程根

，作为整个子树的资源域。

在线程化子树中：

进程的线程可放入不同cgroup

不受"无内部进程"约束限制（非叶子cgroup即使不含线程也可启用线程化控制器）

复制代码

线程化域cgroup承载子树的所有域资源消耗，因此无论是否包含进程都被视为具有内部资源消耗，且不能拥有非线程化的已填充子cgroup。根cgroup不受"无内部进程"约束，故可同时作为线程化域和域cgroup的父级。

cgroup的当前操作模式通过

cgroup.type

文件显示，包含三种状态：

普通域（domain）

作为线程化子树根的域（domain threaded）

线程化cgroup（threaded）

新创建的cgroup默认为域cgroup，可通过写入

threaded

转换为线程化（单向操作）：

echo threaded > cgroup.type

转换需满足以下条件：

父cgroup必须是有效的（线程化）域或线程化cgroup

若父cgroup是未线程化域，则不得启用任何域控制器或包含已填充的域子cgroup（根cgroup除外）

拓扑无效的cgroup（如新创建的域cgroup未连接到可承载子域的父级）会显示

domain (invalid)

状态，相关操作将返回

EOPNOTSUPP

错误。

域cgroup在以下情况转为线程化域：

子cgroup变为线程化

启用

cgroup.subtree_control

中的线程化控制器且该cgroup包含进程

cgroup.threads

文件列出cgroup中所有线程ID（格式与行为同

cgroup.procs

，但操作粒度是线程级）。写入

cgroup.threads

仅能在同一线程化域内移动线程。

线程化域cgroup作为整个子树的资源域：

其

cgroup.procs

包含子树中所有进程PID（子树内部不可读）

子树中任意位置写入

cgroup.procs

可迁移目标进程的所有线程

仅线程化控制器可在线程化子树中启用。启用后，控制器仅统计和控制与该cgroup及其后代中线程相关的资源消耗，非线程专属消耗归属于线程化域cgroup。

当前支持的线程化控制器包括：

cpu

cpuset

perf_event

pids

填充状态通知

每个非根cgroup的

cgroup.events

文件包含

populated

字段：

：该cgroup及其后代无存活进程

：存在存活进程

当值变化时触发

poll

和