[疑难杂症2024-004] 通过docker inspect解决celery多进程记录日志莫名报错的记录

本文由Markdown语法编辑器编辑完成.

写作时长: 2024.05.07 ~

文章字数: 1868

1. 前言

最近我负责的一个服务,在医院的服务器上线一段时间后,利用docker logs查看容器的运行日志时,发现会有一个"莫名其妙"的报错.报错的大致内容就是,celery的进程,在运行时需要记录日志时,提示找不到某一个日期的日志文件.在下面的截图中,是找不到: /app/logs/xxxx.log.2024-04-19的文件.

而且,这个日期,不是一个固定的数字,也看不出什么规律来.

不是loguru配置里面的,保留1 week内的7天.总之就是不知道怎么突然有这么个日期.

每家医院报错时的日期,都不同.有的甚至是,1个月, 2个月前的某一天.

虽然这个报错,并未影响程序的正常运行.但是,对于需要在线查看和定位问题时,会造成极大的干扰.因为,几乎每一个loguru.info()都会抛出这么一长串的报错.

因此,在某一天,我决定必须要解决掉这个bug.

我又开始了寻找病因的过程.

以下,我来介绍这个问题的原因和后来的解决方案.

2. 重现问题

程序员解决bug, 和医生看病有一个区别就是:程序员要解决这个bug, 最好是能够让这个bug,在某种情况下可以稳定复现.

这样,在修复代码后,可以通过重现这个场景,来验证这个问题,是否真得得到解决.

但医生给病人看病,总不能让病人,再从健康状态来一遍,看怎么再复现这个生病的状态.

2.1 场景1

遇到日志翻转的报错,最容易想到的问题是,多进程在同时记录日志时,可能一个进程在记录日志,刚才跨越零点,将日志文件翻转,生成了一个新的文件;但是,其他进程,由于那个时刻未工作,导致没有翻转日志,因此,它还是要寻找翻转前的那个日志文件.

结果由于第一个进程,已经把日志进行了翻转,比如日期是2024年5月6日,23:59:59, 刚才零点后,就会生成一个: info.log.2024-05-06的文件.

而00:00之后的日志,则会记录在新的日志文件: info.log里面.

于是,我通过修改系统时间,修改为23:59:00.然后启动容器后,同时发很多图,尽量让多进程的每个进程都在工作,以尽量复现这样的情况.

但经过多次的修改系统时间,和重新发图,仍然没有触发这个报错.

2.2 场景2

观察到的现象是,只有在docker logs -f xxx的时候,才会有这个报错,且这个报错,又不会阻塞多进程的正常工作.

为了能够看到在这个时刻,每个多进程的输出日志,我在loguru的terminal的配置中,增加了一些输出.修改如下:

python 复制代码
from loguru import logger as loguru_logger


# 日志文本文件中,每一行日志的格式.
LOG_FILE_FORMAT = (
    "{time:YYYY-MM-DD HH:mm:ss.SSS}/{level}/{module}.{function}:{line}|{process.name}({process.id})|{message}"
)

# 容器运行时,输出到terminal中的日志格式.
LOG_STDOUT_FORMAT_WITH_COLOR = (
    "<green>{time:YYYY-MM-DD HH:mm:ss.SSS}</green> "
    "<level>{level: <8}</level> <cyan>{module}</cyan>.<cyan>{function}</cyan>:<cyan>{line}</cyan> <cyan>{process.id}</cyan> |<bold><blue>{process.name}({process.id})</blue></bold>| <level>{message}</level>"
)

相比较之前的,我在LOG_STDOUT_FORMAT_WITH_COLOR中,额外增加了两个字段:

python 复制代码
<cyan>{process.id}</cyan> |<bold><blue>{process.name}({process.id})</blue></bold>

这样,在docker logs -f , 查看容器运行的日志时,就可以看到,当前输出日志的,进程的name, 和进程的id.

也就是我增加的这两个关键内容,帮助我找到了问题所在.

未完待续...

相关推荐
CF14年老兵1 分钟前
🐍 Python黑魔法手册:让你的代码从能跑到飞起的奇技淫巧
后端·python·trae
天天进步201514 分钟前
Python实战--基于Django的企业资源管理系统
开发语言·python·django
万邦科技Lafite1 小时前
利用淘宝开放API接口监控商品状态,掌握第一信息
大数据·python·电商开放平台·开放api接口·淘宝开放平台
Hy行者勇哥3 小时前
Python 与 VS Code 结合操作指南
开发语言·python
大力水手(Popeye)3 小时前
Pytorch——tensor
人工智能·pytorch·python
飞翔的佩奇7 小时前
【完整源码+数据集+部署教程】表盘指针检测系统源码和数据集:改进yolo11-CA-HSFPN
python·yolo·计算机视觉·数据集·yolo11·表盘指针检测
larance7 小时前
SQLAlchemy 的异步操作来批量保存对象列表
数据库·python
搏博8 小时前
基于Python3.10.6与jieba库的中文分词模型接口在Windows Server 2022上的实现与部署教程
windows·python·自然语言处理·flask·中文分词
lxmyzzs9 小时前
pyqt5无法显示opencv绘制文本和掩码信息
python·qt·opencv
萧鼎10 小时前
Python pyzmq 库详解:从入门到高性能分布式通信
开发语言·分布式·python