Sentry On-Premise 21.7 问题排查与处理总结

Sentry On-Premise 21.7 问题排查与处理总结

时间 :2025-08-21 环境:Sentry On-Premise 21.7.0 + Docker

  1. 问题概述
  • 现象

    • Sentry Web 页面访问报 502。
    • 日志显示 uWSGI 启动后,workers 很快被 SIGINT/SIGQUIT 杀掉。
    • Snuba 消费 subscriptions 报错:
    • OffsetOutOfRange('KafkaError{code=OFFSET_OUT_OF_RANGE,val=1,str="Broker: Offset out of range"}')
    • Web 容器无法直接进入 bash(未运行)。
  • 疑因

    • 数据量过大导致 Web 服务挂掉。
    • Kafka 中的 subscriptions offset 超出范围导致 Snuba consumer 异常退出。
  1. 排查步骤与处理时间线

2.1 Day1:清理过期数据

  • 通过 Postgres / Clickhouse 删除历史事件数据,降低数据量。
  • 目标:减少 Web 和 Snuba 处理压力。

2.2 容器状态检查

docker ps ``docker network ls

  • Web 容器仍然频繁重启,worker 和 cron 容器正常运行。
  • Kafka、Postgres、Clickhouse、Redis、Memcached 容器健康。

2.3 数据库检查

docker exec -it sentry_onpremise_postgres_1 psql -U postgres ``\l # 列出数据库 \du # 列出用户 \dt # 查看表

  • Postgres 默认 database 下有 Sentry 表,如:
  • sentry_project sentry_team `` sentry_user ``nodestore_node

2.4 Web 日志分析

docker logs -f sentry_onpremise_web_1

  • 日志显示 uWSGI 启动成功,但 workers 很快被杀掉,可能由资源或缓存异常导致。

2.5 Snuba subscriptions 错误

OffsetOutOfRange('KafkaError{code=OFFSET_OUT_OF_RANGE,val=1,str="Broker: Offset out of range"}')

  • Kafka subscription consumer offset 已经过期,导致 Snuba consumer 退出。
  1. 处理措施

3.1 停止异常 consumer

docker stop sentry_onpremise_snuba-subscription-consumer-events_1 ``docker stop sentry_onpremise_snuba-subscription-consumer-transactions_1

3.2 重置 Kafka offset

docker exec -it sentry_onpremise_kafka_1 kafka-consumer-groups \ `` --bootstrap-server localhost:9092 \ `` --group snuba-subscription-consumer-events \ `` --reset-offsets --to-latest --execute --topic events `` docker exec -it sentry_onpremise_kafka_1 kafka-consumer-groups \ `` --bootstrap-server localhost:9092 \ `` --group snuba-subscription-consumer-transactions \ ``--reset-offsets --to-latest --execute --topic transactions

⚠️ 注意:跳过 Kafka 中过期消息,但不会删除 Clickhouse 已处理的数据。

3.3 重启 consumer

docker start sentry_onpremise_snuba-subscription-consumer-events_1 ``docker start sentry_onpremise_snuba-subscription-consumer-transactions_1

3.4 清理缓存与迁移(可选)

sentry cleanup ``sentry upgrade

  • 风险:不会删除项目或用户关键数据,只清理缓存和执行迁移。

3.5 验证

  • Web 页面正常访问。
  • Snuba subscriptions 消费正常。
  • Kafka 消费 offset 指向最新。
  1. 总结

  2. 问题主要由 Kafka offset 过期 + 数据量过大导致 Web 容器异常 引起。

  3. 排查顺序:

    1. 容器状态 → 数据库表 → Web 日志 → Snuba 日志 → Kafka offset。
  4. 处理方式:

    1. 清理历史数据 → 停止异常 consumer → 重置 Kafka offset → 重启 consumer → 验证。
  5. 数据安全:

    1. Postgres 和 Clickhouse 数据未丢失。
    2. 清理缓存和迁移操作不会删除关键数据。
  6. 建议:

    1. 定期清理 Kafka 和 Snuba 过期数据。
    2. 监控 Web 容器资源使用情况。
    3. 对关键 Kafka topic 和 consumer group 做备份与监控。
相关推荐
_院长大人_4 小时前
Vue + ECharts 实现价格趋势分析图
前端·vue.js·echarts
IT_陈寒4 小时前
Vite的alias配置把我整不会了,原来是这个坑
前端·人工智能·后端
万物得其道者成4 小时前
Cursor 提效实战:我的前端 Prompt、审查 SKILL、MCP 接入完整方法
前端·prompt
酒鼎5 小时前
学习笔记(12-02)事件循环 - 实战案例 —⭐
前端·javascript
Bigger5 小时前
第一章:我是如何剖析 Claude Code 整体架构与启动流程的
前端·aigc·claude
竹林8185 小时前
从“连接失败”到丝滑登录:我用 ethers.js v6 搞定 MetaMask 钱包连接的全过程
前端·javascript
oi..5 小时前
《Web 安全入门|XSS 漏洞原理、CSP 策略与 HttpOnly 防护实践》
前端·网络·测试工具·安全·web安全·xss
UXbot5 小时前
2026年AI全链路产品开发工具对比:5款从创意到上线一站式平台深度解析
前端·ui·kotlin·软件构建·swift·原型模式
一拳不是超人6 小时前
前端工程师也要懂的服务器部署知识:从 Nginx 到 CI/CD
服务器·前端
AlkaidSTART6 小时前
TanStack Query 技术指南:异步状态管理核心实践
前端·react.js