概述
本文档介绍面单打印服务的监控检查事项,包括主要观察面板、监控指标说明、问题排查方法以及电商促销活动期间的应急预案。
1. 主要观察面板
1.1 业务指标监控
针对面单打印场景,通过业务指标监控看板查看成功率与异常情况,核心监控内容:
- 接口成功率
- 异常请求数量
- 业务指标趋势
1.2 应用指标监控
通过应用指标监控看板查看服务性能指标,核心监控内容:
- QPS(每秒查询率)
- CPU 使用率
- 内存使用率
1.3 服务监控 Dashboard
查看服务全量详细运行状态,核心涵盖接口调用情况、接口响应时间等维度
2. 监控指标说明
2.1 管理系统 / 服务点系统接口成功率
说明:成功率基准为 100%,电商大促期间允许波动,非持续低于 95% 即视为正常
注意事项:
- 管理系统:正逆向合并模式处于切换阶段,需同时关注正逆向合并、旧模式两个图表的成功率
- 服务点系统:统一为正逆向合并模式,面单打印均切换至新流程,需重点关注新流程成功率(新流程:移除对象存储缓存依赖,返回即时文件流)
2.2 依赖服务成功率
依赖服务:面单平台服务 / 订单服务 / 基础服务
说明:
- 基础服务:因依赖对象存储文件上传缓存,日常存在小幅超时波动;若成功率持续低于 98%,需考虑启用备用方案
- 订单服务:电商大促期间接口波动多于日常,需重点密切关注
2.3 QPS(每秒查询率)
说明:日常 QPS 为 12~13,电商大促前后会上升;若 QPS 持续维持在总 QPS 的 70%-80% 且无下降,需及时扩容
以某次电商促销活动期间的数据为例:
| 指标 | 日常值 | 最大值 |
|---|---|---|
| QPS | 12 左右 | 35 * 2 |
| CPU | 7% 左右 | 400% |
| Memory | 800MB | 8G |
2.4 RT(响应时间)
说明:若服务超过负载,接口 RT 可能出现持续性升高。
关注点:
- 响应时间的整体趋势变化
- 是否存在响应时间持续性增长的情况
- 响应时间与 QPS 之间的关联变化关系
3. 监控平台的使用
3.1 业务指标监控平台
该平台提供业务指标和应用指标一体化监控视图,核心监控内容如下:
- 业务指标:接口成功率、异常请求统计、依赖服务状态
- 应用指标:QPS 趋势、CPU 使用率、内存使用率
3.2 服务监控 Dashboard
可精细化查看各核心服务运行及调用情况,分模块监控内容如下:
- 后端服务(BFF):查看服务整体请求监控,需注意筛选时间范围,支持查看所有接口的调用详情
- 基础服务:该服务采用 GRPC 调用方式,可直接查看各市场的接口调用情况及耗时
- 订单服务:查看请求量、成功率、响应时间等全维度请求情况
- 面单平台服务:查看接口调用量、成功率等核心调用指标
3.3 日志平台
核心功能
- 依据 shipment_id 查询对应订单的请求情况
- 确认请求后,通过trace_id搜索订单全请求链路日志,该标识同样适用于基础服务日志搜索
日志搜索技巧:
- 精准使用关键词检索相关日志
- 结合时间范围筛选,缩小日志查询范围
- 通过trace_id完整追踪请求全链路,定位问题节点
4. 监控需要关注事项
4.1 依赖服务接口成功率
核心关注点:订单服务、面单平台服务、基础服务的接口成功率,日常值约 99% 波动,出现持续性下降需及时排查原因
排查方法:
- 查看业务指标监控平台数据
- 结合服务监控 Dashboard 关注服务运行状态
- 借助依赖服务监控辅助排查
4.2 服务应用情况
关注指标:QPS(每秒查询率)、CPU 使用率、内存使用率
以某次电商促销活动期间的数据为例:
| 指标 | 日常值 | 最大值 |
|---|---|---|
| QPS | 12 左右 | 35 * 2 |
| CPU | 7% 左右 | 400% |
| Memory | 800MB | 8G |
告警规则:
- 接口成功率持续在 90% 左右时会触发相关告警
- 已配置自动化告警规则,需及时响应告警信息
4.3 已知问题
以下日常异常情况,未大幅度超过日常数量即视为正常,超量时需重点关注
- Timeout Error(日常不超过 100):因对象存储上传文件偶现超时导致核心监控数量变化
- 订单服务请求错误(偶尔出现):因订单服务请求偶现超时导致,核心监控数量变化
- Template Error(日常不超过 10):因模板相关问题导致,核心监控数量变化
5. 电商促销活动期间的应急预案
5.1 应急预案表格
| 场景 | 解决方案 |
|---|---|
| 依赖服务成功率持续性下降 | 通过日志平台排查原因,同步对应服务负责人协同处理 |
| 服务 QPS / CPU / Memory 使用率持续上涨 | 使用率达 70% ~ 80% 时,申请扩容处理 |
| 其他情况导致面单功能异常 | 立即联系相关负责人排查 |
| 打印失败且对象存储服务超时 | 启用"文件流打印"的备用方案,由负责人在配置中心完成相关开发配置 |
5.2 应急处理流程
- 发现问题:通过监控系统识别异常,准确记录问题现象及发生时间
- 初步排查:查看相关监控指标与日志信息,明确问题的影响范围
- 联系相关人员:通知对应服务负责人,同步问题详情,协调确定处理方案
- 执行解决方案:按应急预案落实对应措施,持续监控问题恢复状态,记录处理过程与结果
- 问题跟进:确认问题完全解决,梳理并记录问题根因,同步更新应急预案
5.3 监控问题记录
监控发现的问题需及时录入问题跟踪系统,记录内容需包含
- 问题描述
- 发现时间
- 影响范围
- 处理过程
- 解决方案
- 问题根因
6. 关键要点总结
6.1 日常监控要点
- ✅ 关注依赖服务(订单服务 / 面单平台服务 / 基础服务)的接口成功率
- ✅ 关注服务 QPS、CPU、Memory 使用率
- ✅ 关注接口响应时间(RT)的变化趋势
- ✅ 精准区分已知问题与异常问题
6.2 电商促销活动期间期间要点
- ✅ 提前落地应急预案
- ✅ 高频关注各核心监控指标
- ✅ 备好扩容方案,QPS 达 70%-80% 时启动扩容
- ✅ 及时响应各类告警信息
6.3 问题排查要点
- ✅ 通过日志平台追踪问题线索
- ✅ 利用 trace_id 溯源完整请求链路
- ✅ 联动多个监控平台做综合分析
- ✅ 及时对接相关人员协同排查处理