前言:为什么监控告警是"好用"的底线?
我们花了大量时间让机器人的任务能够准时运行------无论是通过APScheduler、Windows任务计划还是cron。但是,"任务准时启动了"和"任务正确完成了"是两件完全不同的事情。
在生产环境中,你永远无法假设脚本每次运行都一帆风顺。网络抖动、API限流、数据库连接池耗尽、磁盘写满、第三方服务故障......任何一个意外都可能导致任务失败。而最糟糕的体验不是任务失败本身,而是几天后才发现任务失败了------数据缺失、报表未发、缓存未更新,修复成本指数级上升。
监控与告警,正是填补"任务启动"与"任务成功"之间鸿沟的关键技术。它让机器人具备了自我感知能力:当自己出问题时,能够主动"呼救",而不是沉默地躺倒。
本文将系统性地介绍如何为Python脚本构建一个轻量级但完善的监控告警体系。我们会从最基础的返回码检查开始,逐步深入到带重试的监控装饰器、日志结构化,最后实现通过邮件、钉钉机器人和企业微信机器人发送告警。读完这篇文章,你将能够为任何Python自动化任务套上一层可靠的"生命体征监测仪"。
一、监控的基本思想:从"执行"到"验证"
1.1 任务的"健康"定义
对于一个定时脚本,什么叫"正常运行"?我们需要定义三个层次的健康标准:
| 层级 | 含义 | 检测方式 |
|---|---|---|
| 存活 | 进程没有被杀死,能够启动 | 进程检查、心跳文件 |
| 执行 | 任务完成了主要逻辑,没有抛出异常 | try-except捕获 |
| 正确 | 任务不仅跑完了,而且结果符合预期(如数据条数正确、API响应成功) | 断言/业务校验 |
存活 是操作系统或进程管理器关心的;执行 是脚本内部try块能覆盖的;正确则需要我们在脚本中显式编写业务校验逻辑。
1.2 监控数据的来源:日志是金矿
所有监控告警系统都离不开日志。一个好的日志应该包含:
- 任务名称/ID
- 开始时间、结束时间、耗时
- 关键步骤的状态(成功/失败/部分成功)
- 错误类型和堆栈(仅失败时)
- 业务指标(如处理记录数、API调用次数)
结构化日志(如JSON格式)比纯文本更容易被自动化工具解析。Python的logging模块配合python-json-logger可以轻松实现。
二、脚本内监控:从被动捕获到主动探测
2.1 基础异常捕获与返回码
最原始的监控方式:在脚本主入口捕获所有异常,并根据结果返回不同的退出码(exit code)。
python
# script_with_exit_code.py
import sys
import logging
logging.basicConfig(level=logging.INFO)
def main():
# 业务逻辑
pass
if __name__ == "__main__":
try:
main()
print("SUCCESS")
sys.exit(0) # 0 表示成功
except Exception as e:
logging.exception("任务执行失败")
sys.exit(1) # 非0表示失败
上层调度器(如APScheduler、cron)可以根据退出码判断任务是否成功。但这种方式太粗糙------你只能知道"失败了",却不知道失败的原因、发生在哪个步骤。
2.2 带监控装饰器的增强方案
更优雅的方式是使用装饰器统一包装监控逻辑,包括执行时间记录、重试、告警触发。
python
import functools
import time
import logging
from typing import Callable, Any
logger = logging.getLogger(__name__)
def monitor_job(job_name: str,
alert_on_failure: bool = True,
max_retries: int = 0,
retry_delay: int = 5):
"""
监控任务执行的装饰器
:param job_name: 任务名称,用于标识
:param alert_on_failure: 失败时是否触发告警
:param max_retries: 失败后自动重试次数
:param retry_delay: 重试间隔(秒)
"""
def decorator(func: Callable) -> Callable:
@functools.wraps(func)
def wrapper(*args, **kwargs) -> Any:
start_time = time.time()
last_exception = None
for attempt in range(max_retries + 1):
try:
result = func(*args, **kwargs)
elapsed = time.time() - start_time
logger.info(f"任务[{job_name}] 执行成功,耗时 {elapsed:.2f}秒")
# 可选:成功时也可以发送通知(对于关键任务)
# if notify_on_success:
# send_success_alert(job_name, elapsed)
return result
except Exception as e:
last_exception = e
elapsed = time.time() - start_time
logger.error(f"任务[{job_name}] 执行失败 (尝试 {attempt+1}/{max_retries+1}): {str(e)}")
if attempt < max_retries:
time.sleep(retry_delay)
else:
# 重试耗尽,触发告警
if alert_on_failure:
send_failure_alert(job_name, e, elapsed)
raise # 重新抛出异常
# 不会执行到这里
return None
return wrapper
return decorator
# 使用示例
@monitor_job("每日数据同步", alert_on_failure=True, max_retries=2, retry_delay=10)
def sync_data():
# 业务逻辑,可能抛出异常
pass
这个装饰器解决了三个问题:自动计时、自动重试、失败告警触发点。实际使用时,你可以在send_failure_alert函数中集成邮件、钉钉、企业微信等具体通知方式。
2.3 业务正确性校验:断言与健康检查
有些任务虽然没抛异常,但结果可能不符合预期。例如:爬虫明明执行完了,但抓到的数据条数为0;数据库清理任务执行了,但应该删除的记录一条都没删。
这时需要在业务逻辑末尾加入显式校验:
python
def sync_orders():
orders = fetch_orders_from_api()
if len(orders) == 0:
# 这不是异常,但业务上属于异常情况
raise BusinessWarning("未获取到任何订单,可能API变更或权限失效")
inserted = db.insert_many(orders)
if inserted < len(orders) * 0.9:
raise BusinessWarning(f"插入成功率过低: {inserted}/{len(orders)}")
# 一切正常
return {"total": len(orders), "inserted": inserted}
将BusinessWarning定义为自定义异常,但监控装饰器同样能捕获并触发告警。
三、告警通道实战:邮件、钉钉、企业微信
当任务失败时,我们需要将信息推送到相关人员能立即看到的地方。以下是三种最常用的告警通道的Python实现。
3.1 邮件告警(适合传统团队或正式报告)
邮件告警适合非即时但需要留档的场景。使用Python内置的smtplib即可。
python
import smtplib
from email.mime.text import MIMEText
from email.mime.multipart import MIMEMultipart
from email.header import Header
import traceback
def send_email_alert(subject: str, body: str, to_emails: list):
"""发送邮件告警"""
smtp_server = "smtp.example.com" # 替换为实际SMTP服务器
smtp_port = 465 # SSL端口
sender_email = "alerts@yourdomain.com"
sender_password = "your_password"
msg = MIMEMultipart()
msg['From'] = sender_email
msg['To'] = ", ".join(to_emails)
msg['Subject'] = Header(subject, 'utf-8')
msg.attach(MIMEText(body, 'plain', 'utf-8'))
try:
with smtplib.SMTP_SSL(smtp_server, smtp_port) as server:
server.login(sender_email, sender_password)
server.sendmail(sender_email, to_emails, msg.as_string())
print("邮件告警发送成功")
except Exception as e:
print(f"邮件发送失败: {e}")
def send_failure_alert(job_name, exception, elapsed):
subject = f"[告警] 任务失败: {job_name}"
body = f"""
任务名称: {job_name}
执行耗时: {elapsed:.2f}秒
失败时间: {time.strftime('%Y-%m-%d %H:%M:%S')}
异常类型: {type(exception).__name__}
异常信息: {str(exception)}
详细堆栈:
{traceback.format_exc()}
"""
send_email_alert(subject, body, ["ops@yourcompany.com", "oncall@yourcompany.com"])
注意:不要在代码中硬编码密码,应使用环境变量或密钥管理服务(如HashiCorp Vault、AWS Secrets Manager)。
3.2 钉钉机器人告警(国内团队首选)
钉钉群机器人是非常流行的告警渠道,免费且实时。步骤如下:
- 在钉钉群中添加"自定义机器人",获得webhook URL。
- 设置安全选项(推荐加签或IP白名单)。
- 使用Python发送POST请求。
python
import requests
import json
import time
import hmac
import hashlib
import base64
from urllib.parse import quote_plus
def send_dingtalk_alert(job_name, exception, elapsed, webhook_url, secret=None):
"""发送钉钉机器人告警(支持加签)"""
headers = {'Content-Type': 'application/json'}
# 如果开启了加签,需要生成时间戳和签名
timestamp = str(round(time.time() * 1000))
sign = ""
if secret:
string_to_sign = f"{timestamp}\n{secret}"
hmac_code = hmac.new(
secret.encode('utf-8'),
string_to_sign.encode('utf-8'),
digestmod=hashlib.sha256
).digest()
sign = base64.b64encode(hmac_code).decode('utf-8')
webhook_url = f"{webhook_url}×tamp={timestamp}&sign={sign}"
# 构造消息内容(Markdown格式)
markdown_text = f"""## 🚨 任务失败告警
- **任务名称**: {job_name}
- **执行耗时**: {elapsed:.2f}秒
- **异常类型**: {type(exception).__name__}
- **异常信息**: {str(exception)}
- **详情**: 请查看完整日志
"""
payload = {
"msgtype": "markdown",
"markdown": {
"title": f"任务失败: {job_name}",
"text": markdown_text
},
"at": {
"atMobiles": ["13800000000"], # 可选:@指定手机号
"isAtAll": False
}
}
response = requests.post(webhook_url, headers=headers, data=json.dumps(payload), timeout=5)
if response.status_code != 200:
print(f"钉钉告警发送失败: {response.text}")
# 使用示例(webhook_url从环境变量获取)
# send_dingtalk_alert("数据同步", Exception("连接超时"), 30.5, webhook_url, secret)
3.3 企业微信机器人告警(适合使用企业微信的公司)
企业微信机器人同样通过webhook发送,支持文本、markdown、图文等格式。
python
def send_wecom_alert(job_name, exception, elapsed, webhook_url):
"""发送企业微信机器人告警"""
headers = {'Content-Type': 'application/json'}
# 企业微信markdown消息长度限制4096字节
content = f"""## <font color="warning">任务失败告警</font>
> **任务名称**: {job_name}
> **执行耗时**: {elapsed:.2f}秒
> **异常类型**: {type(exception).__name__}
> **异常信息**: {str(exception)}
> 请及时处理:[查看日志](https://your-log-platform.com)
"""
payload = {
"msgtype": "markdown",
"markdown": {
"content": content
}
}
response = requests.post(webhook_url, headers=headers, json=payload, timeout=5)
if response.status_code != 200:
print(f"企业微信告警发送失败: {response.text}")
3.4 统一告警接口:便于切换和扩展
在实际项目中,你可能需要支持多种告警渠道,甚至动态切换。建议封装一个统一的告警接口:
python
from abc import ABC, abstractmethod
class AlertChannel(ABC):
@abstractmethod
def send(self, job_name: str, exception: Exception, elapsed: float):
pass
class DingTalkChannel(AlertChannel):
def __init__(self, webhook_url: str, secret: str = None):
self.webhook_url = webhook_url
self.secret = secret
def send(self, job_name: str, exception: Exception, elapsed: float):
# 调用上面的 send_dingtalk_alert 函数
send_dingtalk_alert(job_name, exception, elapsed, self.webhook_url, self.secret)
class EmailChannel(AlertChannel):
def __init__(self, smtp_config: dict, to_emails: list):
self.smtp_config = smtp_config
self.to_emails = to_emails
def send(self, job_name: str, exception: Exception, elapsed: float):
# 邮件发送逻辑
pass
# 使用配置
channels = [
DingTalkChannel(os.getenv("DINGTALK_WEBHOOK"), os.getenv("DINGTALK_SECRET")),
EmailChannel(smtp_config, ["admin@example.com"])
]
def send_failure_alert(job_name, exception, elapsed):
for channel in channels:
try:
channel.send(job_name, exception, elapsed)
except Exception as e:
logger.error(f"告警通道发送失败: {e}")
这样,当需要增加新的告警方式(如飞书、Slack、Telegram)时,只需实现AlertChannel接口即可。
四、集成到APScheduler:完整的监控闭环
有了上述监控装饰器和告警通道,我们将其无缝集成到APScheduler中,形成生产级的任务监控体系。
python
from apscheduler.schedulers.background import BackgroundScheduler
from apscheduler.jobstores.sqlalchemy import SQLAlchemyJobStore
from apscheduler.executors.pool import ThreadPoolExecutor
import logging
# 配置日志
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)
# 告警通道配置(使用环境变量)
alert_channels = [
DingTalkChannel(os.getenv("DINGTALK_WEBHOOK"), os.getenv("DINGTALK_SECRET")),
# 可以再加邮件通道
]
def send_failure_alert(job_name, exception, elapsed):
for ch in alert_channels:
try:
ch.send(job_name, exception, elapsed)
except Exception as e:
logger.error(f"告警发送失败: {e}")
# 监控装饰器(复用之前的实现)
def monitored_job(job_name):
def decorator(func):
@functools.wraps(func)
def wrapper(*args, **kwargs):
start = time.time()
try:
result = func(*args, **kwargs)
logger.info(f"Job {job_name} succeeded in {time.time()-start:.2f}s")
return result
except Exception as e:
elapsed = time.time() - start
logger.exception(f"Job {job_name} failed: {e}")
send_failure_alert(job_name, e, elapsed)
raise
return wrapper
return decorator
# 实际业务任务
@monitored_job("daily_data_sync")
def daily_data_sync():
# 业务逻辑
pass
@monitored_job("cleanup_temp_files")
def cleanup_temp_files():
pass
# APScheduler配置
jobstores = {
'default': SQLAlchemyJobStore(url='sqlite:///jobs.sqlite')
}
executors = {
'default': ThreadPoolExecutor(max_workers=10)
}
scheduler = BackgroundScheduler(jobstores=jobstores, executors=executors, timezone='Asia/Shanghai')
# 添加任务
scheduler.add_job(daily_data_sync, 'cron', hour=2, minute=0, id='daily_sync')
scheduler.add_job(cleanup_temp_files, 'cron', hour=3, minute=0, id='cleanup')
scheduler.start()
这样,每个任务执行失败时都会自动触发钉钉/邮件告警,同时保留了APScheduler本身的持久化和重试能力(注意:APScheduler自带的任务重试机制与装饰器重试可能会重复,建议只使用其中一种)。
五、高级监控策略:心跳、健康检查与分级告警
5.1 心跳机制:检测"任务没有跑"
上述监控只覆盖了"任务启动了但失败了"的场景。但如果调度器本身挂了,或者任务因为某种原因根本没有被触发(例如cron服务停止),你什么告警都收不到------这反而更危险。
心跳机制是解决此问题的经典方案:每个任务在成功执行后,向某个外部系统写入一个时间戳(如Redis、数据库或文件)。另一个独立的监控进程(可以是另一个轻量级脚本)定期检查这个时间戳,如果距离上次心跳超过预期周期+容忍阈值,则发出"任务遗漏"告警。
python
# 在任务成功结束时写入心跳
import redis
r = redis.Redis(host='localhost', port=6379, db=0)
def report_heartbeat(job_name):
r.set(f"heartbeat:{job_name}", int(time.time()))
@monitored_job("daily_sync")
def daily_sync():
# ... 业务逻辑
report_heartbeat("daily_sync")
独立的监控脚本(每5分钟运行一次):
python
def check_heartbeats():
expected_intervals = {
"daily_sync": 86400, # 期望每天一次
"hourly_clean": 3600
}
now = time.time()
for job_name, interval in expected_intervals.items():
last_beat = r.get(f"heartbeat:{job_name}")
if last_beat is None:
send_alert(f"任务{job_name}从未执行过")
else:
elapsed = now - int(last_beat)
if elapsed > interval + 3600: # 容忍1小时
send_alert(f"任务{job_name}心跳超时,已{elapsed//3600}小时未执行")
这个检查脚本本身也需要被监控(可以用系统级cron或任务计划程序运行)。
5.2 分级告警:避免告警疲劳
如果失败就告警,夜间一个临时网络抖动可能导致所有人被叫醒。因此需要分级策略:
| 级别 | 触发条件 | 通知方式 | 接收人 |
|---|---|---|---|
| INFO | 任务成功但有轻微异常(如重试后成功) | 日志,不推送 | 无 |
| WARN | 任务失败但已自动重试成功 | 仅记录到监控系统 | 值班看板 |
| ERROR | 任务最终失败 | 钉钉/企微群消息 | 开发组 |
| CRITICAL | 连续失败3次或心跳丢失 | 电话/短信 | 运维主管 |
实现时可以在监控装饰器中增加失败计数缓存(如Redis计数器),连续失败达到阈值后才升级告警。
python
def send_escalated_alert(job_name, exception, elapsed):
# 从Redis获取连续失败次数
key = f"fail_count:{job_name}"
fail_count = r.incr(key)
r.expire(key, 3600) # 1小时衰减
if fail_count >= 3:
# 发送严重告警(钉钉+短信)
send_dingtalk_alert(job_name, exception, elapsed, webhook, at_mobiles=['manager'])
send_sms_alert(...)
elif fail_count >= 1:
# 普通告警
send_dingtalk_alert(job_name, exception, elapsed, webhook)
5.3 结构化日志与ELK集成
当任务数量增多,告警信息需要结合上下文日志排查。建议所有脚本输出结构化日志(JSON格式),然后通过Filebeat或Fluentd发送到ELK(Elasticsearch, Logstash, Kibana)或Loki。告警消息中携带日志查询链接,让接收者一键查看完整堆栈。
python
import json_logging
import logging
json_logging.init_non_web(enable_json=True)
logger = logging.getLogger(__name__)
# 之后的所有日志都会输出JSON格式
logger.info("任务开始", extra={"job_name": "sync", "step": "fetch"})
在告警消息中加上Kibana链接:https://kibana.yourcompany.com/app/discover#/?_a=(query:(language:kuery,query:'job_name:"daily_sync" AND level:"ERROR"'))
六、部署监控脚本的注意事项
6.1 监控脚本本身的可靠性
监控系统不能成为新的单点故障。建议:
- 将心跳检查脚本也加入调度,并由上级监控(如systemd或Windows服务)守护。
- 重要告警通道(如短信)应有备用渠道(例如同时使用钉钉和邮件)。
- 避免告警风暴:同一任务在短时间内失败多次,只发送第一条告警,后续静默一段时间。
6.2 配置管理
所有webhook URL、密码、SMTP配置都应该通过环境变量或配置中心(如Consul、etcd)注入,不要硬编码在代码仓库中。示例:
python
import os
DINGTALK_WEBHOOK = os.getenv("DINGTALK_WEBHOOK")
if not DINGTALK_WEBHOOK:
raise ValueError("请设置环境变量 DINGTALK_WEBHOOK")
6.3 测试告警通道
在部署到生产前,务必进行告警注入测试:临时让任务抛出一个异常,确认团队能收到告警,且消息内容包含足够的信息(时间、任务名、异常堆栈)。
七、总结与最佳实践清单
我们从最基础的异常捕获开始,逐步构建了一个包含自动重试、分级告警、心跳检测和结构化日志的完整监控体系。核心要点总结如下:
| 层次 | 技术方案 | 解决的问题 |
|---|---|---|
| 进程级 | 系统守护(systemd/supervisord) | 进程崩溃后自动重启 |
| 任务级 | 监控装饰器 + 重试 | 捕获执行失败并重试 |
| 业务级 | 显式断言/校验 | 检测"静默错误" |
| 告警级 | 钉钉/企微/邮件通道 | 及时通知相关人员 |
| 心跳级 | 独立的心跳检查脚本 | 检测任务完全未执行 |
| 可观测性 | 结构化日志 + ELK | 快速定位失败根因 |
最佳实践清单(上线前对照检查)
- ✅ 每个关键任务都有
try-except或监控装饰器包装。 - ✅ 配置了至少一种实时告警通道(钉钉/企微)。
- ✅ 告警消息包含:任务名称、失败时间、异常类型、异常信息、日志查询链接。
- ✅ 实现了连续失败抑制(避免告警风暴)。
- ✅ 为核心任务配置了心跳监控。
- ✅ 所有敏感配置通过环境变量注入。
- ✅ 测试过告警通道的可用性。
- ✅ 监控脚本本身被上级进程守护。