oracle的trace,alert,incident,cdump,hm都是干嘛的

这些都是 Oracle ADR(自动诊断仓库)架构下的核心诊断组件,是排查数据库故障的核心依据,按 "常用程度 + 故障优先级" 拆解,用通俗比喻 + 实战场景讲清:

组件 通俗定位 核心作用 存储内容 / 特征 核心使用场景
Alert(告警日志) 数据库的 "系统日记" 记录数据库全生命周期的关键系统事件,是排查所有系统级故障的第一抓手 - 文本文件:alert_<SID>.log(ADR Home/alert);- 记录:实例启停、参数修改、表空间操作、系统级错误(ORA-00600/07445)、备份恢复、后台进程异常等 1. 实例启动失败(查最后 100 行);2. 定位系统级错误(如 ORA-00600);3. 确认数据库关键操作(如表空间扩容)
Trace(跟踪文件) 数据库的 "调试日志" 记录进程执行的详细轨迹,分 "后台进程 Trace" 和 "用户进程 Trace",定位具体执行异常 - 后台 Trace:LGWR/DBWR/PMON 等进程异常时的调试文件(如orcl_lgwr_12345.trc);- 用户 Trace:用户 SQL 执行错误 / 慢 SQL 追踪文件(如orcl_ora_67890.trc 1. 排查后台进程崩溃(如 LGWR 挂死);2. 分析慢 SQL(通过 SQL_TRACE 生成 Trace);3. 定位用户 SQL 执行错误(如 ORA-01403)
Incident(故障事件) 严重错误的 "专属档案" 针对 Oracle 致命错误生成的标准化诊断包,每个错误对应唯一 Incident ID - 触发条件:ORA-00600(内部内核错误)、ORA-07445(系统级崩溃)、ORA-01578(数据块损坏);- 存储:每个 ID 对应独立目录(incdir_<ID>),含 Trace、内存转储、调用栈 1. 定位致命错误根因;2. 打包(incpkg)发给 Oracle 原厂分析;3. 关联错误上下文(如崩溃前执行的 SQL)
CDump(核心转储) 实例崩溃的 "黑匣子" 操作系统级的进程崩溃数据,存储进程崩溃时的内存镜像 - 触发条件:实例 / 进程崩溃(如 ORA-07445 导致进程终止);- 内容:进程内存镜像、寄存器状态、操作系统调用栈(二进制文件) 仅 Oracle 原厂支持分析 "实例彻底崩溃" 的底层原因(普通 DBA 无工具解析)
HM(Health Monitor) 数据库的 "健康体检报告" 自动 / 手动检测数据库物理 / 逻辑损坏,发现隐性故障 - 检查类型:数据块完整性、控制文件校验、索引损坏、重做日志检查;- 存储:检查报告(文本 / XML),记录损坏块 ID、修复建议 1. 排查 "隐性故障"(无明显报错但性能异常);2. 确认数据块是否损坏;3. 验证数据库恢复后的完整性

关键补充(实战必知)

1. 优先级:先看 Alert,再查 Trace,严重错误找 Incident
  • 日常故障(如实例启动失败、普通 ORA 错误):先看 Alert 日志定位大致方向,再查对应 Trace 文件找细节;
  • 致命错误(如 ORA-00600、实例崩溃):先找 Alert 里记录的 Incident ID,再到 Incident 目录拿全量诊断数据,必要时提供 CDump 给原厂;
  • 隐性故障(如性能慢但无报错):执行 HM 健康检查(DBMS_HM.RUN_CHECK),查看报告找损坏 / 异常。
2. 如何快速找到这些文件?

无需记路径,通过v$diag_info视图一站式查询:

sql 复制代码
-- 查Alert、Trace、Incident的存储路径
SELECT name, value 
FROM v$diag_info 
WHERE name IN ('Diag Alert', 'Diag Trace', 'Incident Directory');
3. 核心工具:ADRCI(统一管理这些诊断数据)
bash 复制代码
adrci  # 启动ADRCI工具
show alert;  # 直接查看Alert日志(无需找路径)
show trace -incident 12345;  # 查看指定Incident的Trace文件
run hm_check DB_BLOCK_CORRUPTION;  # 执行HM数据块损坏检查
purge -age 720 -type TRACE;  # 清理30天前的Trace文件(释放磁盘)

总结

  • Alert:全局系统事件,故障排查 "入口";
  • Trace:进程执行细节,故障定位 "细节";
  • Incident:严重错误打包,原厂分析 "素材";
  • CDump:底层崩溃数据,原厂专属 "黑匣子";
  • HM:隐性故障检测,提前发现 "隐患"。

普通 DBA 日常运维重点关注 Alert、Trace、Incident、HM 即可,CDump 仅需在 Oracle 原厂要求时提供。

相关推荐
这个DBA有点耶16 小时前
两张百万级大表JOIN跑崩了?试试这3招
数据库·代码规范
IntMainJhy16 小时前
「Flutter三方库sqflite的鸿蒙化适配与实战指南:从入门到踩坑的本地数据库开发全记录」
数据库·flutter·华为·信息可视化·数据库开发·harmonyos
counting money16 小时前
Spring框架基础(依赖注入-全注解形式)
java·数据库·spring
计算机安禾16 小时前
【Linux从入门到精通】第33篇:数据库MySQL/MariaDB安装与基础调优
linux·数据库·mysql
瀚高PG实验室16 小时前
ERROR: invalid input syntax for type integer: “a“
数据库·瀚高数据库
S1998_1997111609•X16 小时前
论next/js在打击省份及犯罪行为集团的系统分析[特殊字符]设计
网络·数据库·百度·ssh·开闭原则
dfdfadffa16 小时前
如何创建仅在首次订阅时执行一次计算的 RxJS 懒加载 Observable
jvm·数据库·python
Irene199116 小时前
Oracle 中:为什么 from 子查询后面需要一个别名
数据库·oracle
m0_6245785916 小时前
SQL分组后如何计算移动平均值_利用窗口函数AVG配合ROWS
jvm·数据库·python
2401_8242226917 小时前
如何修复待办事项列表无法添加任务的 JavaScript 错误
jvm·数据库·python