containerd中文翻译系列(二十一)用户命名空间

支持用户命名空间

Kubernetes 自 v1.25 起支持使用用户命名空间运行 pod。本文档解释了

containerd 对该功能的支持。

什么是用户命名空间?

用户命名空间将容器内运行的用户与主机内的用户隔离开来。

在容器中以 root 用户身份运行的进程可以在主机中以不同的(非 root)用户身份运行。换句话说,进程在用户命名空间内的操作具有完全权限,但在命名空间外的操作则没有权限。

您可以使用此功能来减少受损容器对主机或同一节点中其他损害。有几个被评为 "高度 "或 "严重 "的安全漏洞在用户命名空间处于活动状态时无法被利用。预计用户命名空间也将缓解一些未来的漏洞。

有关用户命名空间的高级介绍,请参阅[kubernetes 文档]kube-intro

栈要求

Kubernetes 的实现在 1.27 版中进行了重新设计,因此,Kubernetes 1.27 之前和之后的版本要求有所不同。

请注意,如果尝试在 containerd 1.6 或更早版本中使用用户命名空间,pod.spec 中的 `hostUsers:false "设置将被无声地忽略

Kubernetes 1.25 和 1.26

  • Containerd 1.7
  • 您可以使用 runc 或 crun 作为 OCI 运行时:
    • runc 1.1 或更高版本
    • crun 1.4.3 或更高版本

也可以使用 containerd 2.0 或更高版本,但[要求与 Kubernetes 1.27 及更高版本相同],除了Linux 内核。请记住,所有要求都适用包括支持 idmap 挂载的文件系统。您可以使用 Linux版本:

  • Linux 5.15:你将受到 [containerd 1.7 存储和延迟的
    限制](#containerd 1.7 存储和延迟的 限制),因为它不支持 overlayfs 的 idmap 挂载。
  • Linux 5.19 或更高版本(推荐):它不受 [containerd 1.7 存储和延迟限制](#Limitations
    限制,因为 overlayfs 在此内核版本上开始支持 idmap 挂载。

Kubernetes 1.27 或更高版本

  • Linux 6.3 或更高版本
  • Containerd 2.0 或更高版本
  • 可使用 runc 或 crun 作为 OCI 运行时:
    • runc 1.2 或更高版本
    • crun 1.9 或更高版本

此外,pod 中的卷所使用的所有文件系统都需要内核支持 idmap挂载。Linux 6.3 中支持 idmap 挂载的常用文件系统有 btrfsext4xfs、fattmpfsoverlayfs

kubelet 负责向容器填充一些文件(如 configmap、secret 等)。该路径中使用的文件系统也需要支持 idmap 挂载。请参阅Kubernetes文档 获取更多信息。

使用用户命名空间创建 Kubernetes pod

首先检查你的 containerd、Linux 和 Kubernetes 版本。如果这些都没问题,那么就不需要对 conntainerd 进行特殊配置。你只需按照 Kubernetes网站中的步骤即可。

限制

你可以查看 Kubernetes 的限制 此处。请注意,不同的Kubernetes 版本有不同的限制,请务必查看您正在使用的 Kubernetes 版本的网站

不同的 containerd 版本也有不同的限制,本节将重点介绍这些限制。

containerd 1.7

containerd 1.7 中存在的一个限制是,它需要更改容器镜像中每个文件和目录的所有权。

这意味着它会产生存储开销,因为每次创建 Pod 时,容器镜像的大小都会重复(译者:没明白)。而且会严重影响容器启动延迟,因为进行这样的复制也需要时间。

您可以将 /sys/module/overlay/parameters/metacopy切换为 Y,以减少这一限制。

这将大大减少存储和性能开销,因为只有容器镜像中每个文件的 inode

而不是文件内容。这意味着存储空间,而且速度更快。不过,这也不是万能的。

如果要更改元数据拷贝参数,请确保更改方式在重启时具有持久性。您还应注意,此设置将用于所有容器,而不仅仅是启用了用户命名空间的容器。这将影响您手动拍摄的所有快照(如果您碰巧这样做)。在这种情况下,请确保在创建和恢复快照时使用相同的 /sys/module/overlay/parameters/metacopy 值。

containerd 2.0 及以上版本

containerd 1.7 中的存储和延迟限制在容器 2.0 及以上版本中不存在、如果使用覆盖快照器(默认情况下使用)。它根本不会占用更多存储空间、而且没有启动延迟。

这是通过将内核特性 idmap和容器 rootfs(容器镜像一起 挂载。这允许覆盖文件系统以不同的 UID/GID 显示镜像,而无需复制文件或 inodes,只需使用绑定挂载即可。

默认情况下,Containerd 将拒绝创建带有用户命名空间的容器。快照器和运行的内核不支持 overlayfs 的 idmap 挂载,则 Containerd 默认会拒绝创建带有用户名称空间的容器。 这是为了确保在使用昂贵的 chown 之前(在存储和 pod 启动延迟方面),确保您了解其影响并决定opt-in。请阅读 containerd 1.7 限制中的的解释。

如果你的内核不支持 overlayfs snapshotter 的 idmap 挂载,你会看到一个错误:

failed to create containerd container: snapshotter "overlayfs" doesn't support idmap mounts on this host, configure `slow_chown` to allow a slower and expensive fallback

从 5.19 版开始,Linux 支持在 overlayfs 上挂载 idmap。

你可以通过在配置中的 overlayfs快照器部分添加 slow_chown 字段,就可以选择慢速 chown:

  [plugins."io.containerd.snapshotter.v1.overlayfs"]
    slow_chown = true

请注意,只有 overlayfs 用户需要选择使用慢速 chown,因为只有它才是containerd 提供的更好的选择(在containerd 中只有 overlayfs 快照器支持 idmap 挂载)。如果你使用其他快照器。如果您使用另一个快照器,您将返回到昂贵的 chown,而无需opt-in。

不过,你可以仔细检查你的容器是否为容器镜像是否使用了 idmap 挂载:

mount | grep overlay

你应该在 lowerdir 参数中看到对 idmap 挂载的引用,在本例中,我们可以看到

idmapped":

overlay on / type overlay (rw,relatime,lowerdir=/tmp/ovl-idmapped823885363/0,upperdir=/var/lib/containerd/io.containerd.snapshotter.v1.overlayfs/snapshots/1018/fs,workdir=/var/lib/containerd/io.containerd.snapshotter.v1.overlayfs/snapshots/1018/work)

使用 ctr 创建包含用户命名空间的容器

你也可以使用 ctr 创建带有用户命名空间的容器。这比较低级,请注意。

按照 此处 的说明创建一个 OCI bundle。然后,将 UID/GID 更改为 65536:

sudo chown -R 65536:65536 rootfs/

复制 this config.json 并将 XXX-path-to-rootfs 替换为刚刚授权的rootfs的绝对路径。

然后创建并启动容器:

sudo ctr create --config <path>/config.json userns-test
sudo ctr t start userns-test

这将在容器内打开一个 shell。你可以运行这个,以验证你是否在一个用户命名空间内:

root@runc:/# cat /proc/self/uid_map
         0      65536      65536

输出结果应完全相同。

相关推荐
探索云原生3 小时前
在 K8S 中创建 Pod 是如何使用到 GPU 的: nvidia device plugin 源码分析
ai·云原生·kubernetes·go·gpu
启明真纳3 小时前
elasticache备份
运维·elasticsearch·云原生·kubernetes
橙子家5 小时前
关于 K8s 的一些基础概念整理-补充【k8s系列之五】
k8s
会飞的土拨鼠呀7 小时前
chart文件结构
运维·云原生·kubernetes
Hello Dam10 小时前
面向微服务的Spring Cloud Gateway的集成解决方案:用户登录认证与访问控制
spring cloud·微服务·云原生·架构·gateway·登录验证·单点登录
power-辰南12 小时前
Zookeeper 底层原理解析
分布式·zookeeper·云原生
power-辰南12 小时前
Zookeeper常见面试题解析
分布式·zookeeper·云原生
Cairry.1 天前
WatchAlert - 开源多数据源告警引擎
云原生·开源·prometheus
会飞的土拨鼠呀1 天前
Kubernetes 是什么?
云原生·容器·kubernetes
向阳逐梦1 天前
开源云原生数据仓库ByConity ELT 的测试体验
数据仓库·云原生·开源