常见的 Docker 问题及解决方法

大家好！我是大聪明-PLUS！

Docker 已成为我们生活中不可或缺的一部分，并成为应用容器化的事实标准。它承诺提供一个"本地运行，本地部署"的环境，而且在大多数情况下，它确实做到了。但迟早，每个开发者或运维工程师都会遇到这种"魔法"失效的情况：容器无法启动，应用程序之间无法通信，服务器磁盘莫名其妙地被占满。

本文不会浅尝辄止地介绍命令列表，而是深入探讨 Docker 最常见也最令人头疼的三大类问题：空间限制、权限冲突和网络冲突。我们将分析这些问题的根源，并提出一套系统化的解决方案。

❯ "设备上没有剩余空间"

您在容器日志中或尝试构建新镜像时会看到此错误。您的第一反应是运行 `df -h` 命令，该命令通常会显示根文件系统已满。但这些空间究竟都到哪里去了？毕竟，卷中的数据看起来是安全的。

问题的根源在于 Docker。它是一个完整的生态系统，包含镜像、已停止的容器、网络设置以及垃圾回收机制（构建缓存、临时文件）。所有这些都存储在 Docker 目录（通常是 /var/lib/docker）中，该目录默认位于根分区。随着时间的推移，这个分区会逐渐被堵塞。

究竟什么东西会占用空间？

悬空图像：这些是构建新版本时遗留下来的图像层，不再与任何标签关联。它们就像你忘记删除的草稿。
已停止的容器：即使容器已停止，它仍然保留其文件系统（记录层）和元数据。如果不删除它们，它们就会不断累积。
卷：未使用的卷也会占用大量空间，而 Docker 不会自动删除它们。
构建缓存：构建缓存是一把双刃剑。它可以加快重复构建的速度，但体积可能会变得非常庞大，尤其是在 Dockerfile 中的初始层频繁更改的情况下。

所以，让我们制定一套系统的清洁方法。

与其盲目删除所有内容，不如使用有针对性的命令。

首先，我们来做一些诊断：

docker system df

此命令将显示镜像、容器、卷和构建缓存所占用空间的详细明细。这是您了解当前状况的主要工具。

接下来，我们要开始清理所有垃圾：

docker system prune

这是最安全有效的常规使用命令。它会移除所有已停止的容器、未使用的网络和已挂起的镜像。如果需要更彻底的清理（包括未使用的卷和整个构建缓存），可以使用以下命令：

docker system prune -a --volumes

（！警告：使用 --volumes 标志时，命名卷也会被删除，请确保它们不包含任何必需数据）。

您还可以进行选择性清洗。如果您想控制清洗过程，这种清洗方式非常合适。

复制代码

`
docker container prune

docker image prune `-a`

docker volume prune`

俗话说，预防胜于治疗，以下是一些预防建议：

养成习惯，在停止使用且不再需要时，及时移除容器： docker run --rm ....
配置您的 CI/CD 流水线，使其能够自动清理自身。
对于关键任务系统，请考虑将 Docker 数据存储在单独的分区或磁盘上。

❯ 访问权限问题

你使用卷将主机上的目录挂载到容器中，然后你的应用程序突然开始抱怨无法创建文件、读取配置或写入日志。

问题的根源在于：容器内的进程以特定用户身份运行（通常默认是 root 用户，但最佳实践建议使用非特权用户，例如 UID 1000）。然而，主机上的文件归您的用户所有（例如，同样是 UID 1000）。如果容器内用户的 UID 与主机上文件所有者的 UID 不匹配，就会出现权限问题。

只要容器以 root 用户身份运行（它可以执行任何操作），这本身不是问题，但从安全角度来看，这是一种糟糕的做法。一旦切换到容器内的非特权用户，一切都会崩溃。

解决这个问题有几种方法：

当然，你可以直接使用暴力破解，以 root 用户身份运行容器。这样做虽然可行，但却破坏了容器化的关键安全措施之一。我必须立即指出，这种做法不建议用于生产环境。

另一种方法是修改主机上的权限（权宜之计）。手动更改主机上已挂载目录的所有者或权限（使用 chmod 或 chown 命令），以便容器中的用户拥有访问权限。这种方法不安全且难以扩展。

解决此问题的最直接方法是根据您的环境"定制"容器内的用户。为此，您需要：

在主机上查找您的 UID：

id -u
在你的 Dockerfile 中，创建一个具有相同 UID 的用户。这一点至关重要。

复制代码

`FROM ubuntu:22.04

RUN groupadd -g 1000 myappuser && \
    useradd -u 1000 -g 1000 -m myappuser

USER myappuser

CMD ["python", "app.py"]`

现在，挂载卷时，主机上用户（UID=1000）的文件和容器中用户（UID=1000）的文件将"看到"彼此的文件，权限问题将消失。

❯ 容器间的网络问题

你运行了两个容器：应用程序和数据库。应用程序尝试连接到 localhost:5432 上的数据库，但连接被拒绝。为什么？

这是因为，默认情况下，每个容器都隔离在各自的网络命名空间中。它拥有自己的本地主机，无法访问其他容器。容器内的本地主机概念仅限于该容器内部。

我们将使用 Docker 网络来解决这个问题。Docker 提供了一种用于组织容器通信的内置机制：用户自定义网络。

首先，让我们创建自己的网络：

复制代码

`docker network create my_app_network`

然后我们在这个网络中启动数据库和容器：

复制代码

`

docker run `-d` `--name` database `--network` my_app_network postgres:15


docker run `-d` `--name` app `--network` my_app_network `-p` `80`:5000 my-app-image`

这有什么意义？

通过名称进行 DNS 解析：最重要的是，Docker 已将 DNS 集成到这些网络中。现在，应用容器中的应用程序无需知道数据库容器的 IP 地址（该地址可能会更改），只需使用数据库名称作为主机名即可。

在应用程序代码中，数据库连接字符串将从 localhost:5432 更改为 database:5432。Docker 会自动将数据库名称解析为正确的 IP 地址。
隔离：您可以在不同的网络上拥有多个环境（开发、测试），它们不会互相干扰。

总的来说，与过时的 --link 方法不同，Docker 网络是一种现代、灵活且推荐的组织容器间交互的方式。

总的来说，了解 Docker 的内部机制，包括其存储系统、安全模型和网络模型，非常有用。这项技能能让你构建稳定且可预测的系统，而不是疲于应对层出不穷的问题。祝大家容器化愉快！