Docker 容器无法停止的排障与解决全过程

前言

在使用docker stop命令停止Nginx容器时,出现Error response from daemon: cannot stop container: a5c1bb8580d5: tried to kill container, but did not receive an exit event报错,常规操作难以解决。

问题现象

执行docker stop a5c1bb8580d5命令尝试停止目标Nginx容器时,Docker守护进程返回错误,提示无法停止容器,尝试杀死容器但未收到退出事件。

后续尝试docker inspect -f '{``{.State.Pid}}' a5c1bb8580d5查看容器对应的宿主机进程ID时,发现返回值为0 ,这意味着容器在Docker层面已经没有对应的进程记录,但容器资源却依然残留,常规的docker rm -f命令也无法将其删除。

问题排查

尝试强制停止容器

面对容器无法正常停止的情况,首先想到的是使用docker kill命令强制发送SIGKILL信号终止容器,命令如下:

bash 复制代码
docker kill a5c1bb8580d5

docker kill 仍失败,手动清理容器进程

复制代码
# 1. 查找容器对应的宿主机进程ID(PID)
docker inspect -f '{{.State.Pid}}' a5c1bb8580d5

# 2. 强制杀死该进程(替换为上一步查到的PID)
sudo kill -9 <查到的PID>

# 3. 清理残留的容器资源
docker rm -f a5c1bb8580d5

但执行后发现,该方法并未生效,容器依旧无法被停止和删除,因为容器 pid 为 0,说明进程在 Docker 层面已无记录,但容器仍残留,这是 Docker 的一种资源残留异常状态。

清理残留容器资源,解决问题

清理 PID 为 0 的残留容器

由于容器 PID 为 0,常规命令无法清理,需要绕过 Docker CLI,直接操作 Docker 的底层存储目录来删除残留资源,具体步骤如下:

停止 Docker 服务

注意:该操作会停止所有正在运行的容器,建议在业务低峰期执行,或提前做好业务容灾准备。

复制代码
# Ubuntu/Debian系统
sudo systemctl stop docker
# CentOS/RHEL系统
sudo service docker stop

删除容器残留文件

Docker 的容器数据默认存储在/var/lib/docker/containers/目录下,我们需要找到对应容器 ID 的文件夹并删除:

复制代码
# 进入容器存储目录
cd /var/lib/docker/containers/
# 查找目标容器的文件夹
ls -la | grep a5c1bb8580d5
# 删除该容器的残留文件夹
sudo rm -rf a5c1bb8580d5*

清理网络残留(可选)

如果存在网络关联残留问题,可以删除 Docker 网络的本地键值数据库文件:

复制代码
sudo rm -rf /var/lib/docker/network/files/local-kv.db

重启 Docker 服务

复制代码
# Ubuntu/Debian系统
sudo systemctl start docker
# CentOS/RHEL系统
sudo service docker start

验证清理结果

执行 docker ps -a 命令查看容器列表,确认目标容器已被清理。

相关推荐
johnny2333 小时前
运维管理面板:AcePanel、OpenOcta、DeepSentry
运维
青梅橘子皮3 小时前
Linux---基本指令
linux·运维·服务器
REDcker4 小时前
Linux信号机制详解 POSIX语义与内核要点 sigaction与备用栈实践
linux·运维·php
绘梨衣5474 小时前
Docker+FastAPI+MySQL 项目部署报错汇总
mysql·docker·fastapi
cui_ruicheng5 小时前
Linux进程间通信(三):System V IPC与共享内存
linux·运维·服务器
ACP广源盛139246256736 小时前
IX8024与科学大模型的碰撞@ACP#筑牢科研 AI 算力高速枢纽分享
运维·服务器·网络·数据库·人工智能·嵌入式硬件·电脑
百年੭ ᐕ)੭*⁾⁾7 小时前
docker使用neo4j
docker·容器·neo4j
峥无7 小时前
Linux系统编程基石:静态库·动态库·ELF文件·进程地址空间全景图
linux·运维·服务器
码云数智-大飞7 小时前
本地部署大模型:隐私安全与多元优势一站式解读
运维·网络·人工智能
Harvy_没救了9 小时前
【网络部署】 Win11 + VMware CentOS8 + Nginx 文件共享服务 Wiki
运维·网络·nginx