[疑难杂症2024-004] 通过docker inspect解决celery多进程记录日志莫名报错的记录

本文由Markdown语法编辑器编辑完成.

写作时长: 2024.05.07 ~

文章字数: 1868

1. 前言

最近我负责的一个服务,在医院的服务器上线一段时间后,利用docker logs查看容器的运行日志时,发现会有一个"莫名其妙"的报错.报错的大致内容就是,celery的进程,在运行时需要记录日志时,提示找不到某一个日期的日志文件.在下面的截图中,是找不到: /app/logs/xxxx.log.2024-04-19的文件.

而且,这个日期,不是一个固定的数字,也看不出什么规律来.

不是loguru配置里面的,保留1 week内的7天.总之就是不知道怎么突然有这么个日期.

每家医院报错时的日期,都不同.有的甚至是,1个月, 2个月前的某一天.

虽然这个报错,并未影响程序的正常运行.但是,对于需要在线查看和定位问题时,会造成极大的干扰.因为,几乎每一个loguru.info()都会抛出这么一长串的报错.

因此,在某一天,我决定必须要解决掉这个bug.

我又开始了寻找病因的过程.

以下,我来介绍这个问题的原因和后来的解决方案.

2. 重现问题

程序员解决bug, 和医生看病有一个区别就是:程序员要解决这个bug, 最好是能够让这个bug,在某种情况下可以稳定复现.

这样,在修复代码后,可以通过重现这个场景,来验证这个问题,是否真得得到解决.

但医生给病人看病,总不能让病人,再从健康状态来一遍,看怎么再复现这个生病的状态.

2.1 场景1

遇到日志翻转的报错,最容易想到的问题是,多进程在同时记录日志时,可能一个进程在记录日志,刚才跨越零点,将日志文件翻转,生成了一个新的文件;但是,其他进程,由于那个时刻未工作,导致没有翻转日志,因此,它还是要寻找翻转前的那个日志文件.

结果由于第一个进程,已经把日志进行了翻转,比如日期是2024年5月6日,23:59:59, 刚才零点后,就会生成一个: info.log.2024-05-06的文件.

而00:00之后的日志,则会记录在新的日志文件: info.log里面.

于是,我通过修改系统时间,修改为23:59:00.然后启动容器后,同时发很多图,尽量让多进程的每个进程都在工作,以尽量复现这样的情况.

但经过多次的修改系统时间,和重新发图,仍然没有触发这个报错.

2.2 场景2

观察到的现象是,只有在docker logs -f xxx的时候,才会有这个报错,且这个报错,又不会阻塞多进程的正常工作.

为了能够看到在这个时刻,每个多进程的输出日志,我在loguru的terminal的配置中,增加了一些输出.修改如下:

python 复制代码
from loguru import logger as loguru_logger


# 日志文本文件中,每一行日志的格式.
LOG_FILE_FORMAT = (
    "{time:YYYY-MM-DD HH:mm:ss.SSS}/{level}/{module}.{function}:{line}|{process.name}({process.id})|{message}"
)

# 容器运行时,输出到terminal中的日志格式.
LOG_STDOUT_FORMAT_WITH_COLOR = (
    "<green>{time:YYYY-MM-DD HH:mm:ss.SSS}</green> "
    "<level>{level: <8}</level> <cyan>{module}</cyan>.<cyan>{function}</cyan>:<cyan>{line}</cyan> <cyan>{process.id}</cyan> |<bold><blue>{process.name}({process.id})</blue></bold>| <level>{message}</level>"
)

相比较之前的,我在LOG_STDOUT_FORMAT_WITH_COLOR中,额外增加了两个字段:

python 复制代码
<cyan>{process.id}</cyan> |<bold><blue>{process.name}({process.id})</blue></bold>

这样,在docker logs -f , 查看容器运行的日志时,就可以看到,当前输出日志的,进程的name, 和进程的id.

也就是我增加的这两个关键内容,帮助我找到了问题所在.

未完待续...

相关推荐
学测绘的小杨5 小时前
CompassFusion:一个从 GNSS 到 GNSS/INS 组合导航的独立工程包
python
zzzzzz31011 小时前
当产品经理说这个很简单:我用Python自动化处理奇葩需求的实战指南
python·pycharm·产品经理
雪隐12 小时前
个人电脑玩AI-06让5060 Ti给你打工——不光能画画,Qwen3-TTS还能学人说话,连我老板都信了!
人工智能·后端·python
兵慌码乱1 天前
面向桌面端的资产管理系统分层架构设计与核心模块实现
python·系统架构·sqlite·pyqt5·数据库设计·桌面应用开发·mvc架构
hboot1 天前
AI工程师第三课 - 机器学习基础
python·scikit-learn·kaggle
顾林海1 天前
Agent入门阶段-编程基础-Python:流程控制
python·agent·ai编程
呱呱复呱呱1 天前
Django CBV 源码解读:一个请求是怎么找到你的 get() 方法的
python·django
曲幽2 天前
刚部署的 LibreTranslate 频频翻车?我掏出了 20 年前的 StarDict 词典,用 FastAPI 搭了个本地词典翻译 API
python·fastapi·web·translate·goldendict·libretranslate·stardict·pystardict
荣码2 天前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python
兵慌码乱2 天前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·sqlite·信号与槽·pyqt5·数据库设计·桌面应用开发·事务处理