自动化网络故障管理

故障管理是网络管理的组成部分,涉及检测、隔离和解决问题,如果实施得当,网络故障管理可以使连接、应用程序和服务保持在最佳水平,提供容错能力并最大限度地减少停机时间,专门为此目的设计的平台或工具称为故障管理系统。

另一方面,只有在停电发生后才发现故障并将其告知现场团队是没有用的,当网络管理员努力定位、分析和解决问题时,可能会出现明确的生产力损失和操作故障,理想的故障管理系统应该能够在潜在的中断发生之前检测到它,并在它影响最终用户之前采取预防措施。它甚至可以自动执行 L1 和 L2 故障排除任务,使网络管理员能够专注于其他关键任务。

识别网络故障

网络故障管理是以最快的方式查找、隔离和排除网络故障的过程。故障管理是网络管理的重要组成部分,它通过快速解决故障来最大限度地减少停机时间并防止设备故障,从而确保最佳的网络可用性并防止业务损失。

网络故障监控是故障管理的第一步,因此是成功进行网络管理的必要条件。如果不是故障管理系统,混合网络基础设施的复杂性日益增加,将使故障管理过程变得繁琐。故障管理工具遵循四步周期来解决问题,如下所示:

  • 检测:查找服务交付中的性能异常或中断
  • 隔离:定位和隔离事件以显示可操作的故障
  • 警报:通过警报或通知通知网络管理员
  • 解决:通过自动化或人工干预修复故障

网络故障监控系统

OpManager 是一种故障监控软件,通过网络设备监控持续监控网络设备中的故障,并通过实现高级警报监控功能来简化网络警报管理过程。可以有效地执行故障监控,并帮助管理员快速确定问题的根本原因,并在最终用户注意到问题之前进行修复。

  • 警报关联、颜色编码警报和事件历史记录
  • 网络故障通知
  • SNMP 陷阱支持和自定义 MIBS 支持
  • 警报和阈值
  • 确认警报

警报关联、颜色编码警报和事件历史记录

在网络监控警报的情况下执行智能事件处理。它关联原始网络事件,过滤不需要的事件,并仅向操作员提供有意义的警报。它支持以用户友好格式呈现的颜色编码警报。管理员可以查看与告警关联的事件历史记录,并手动清除或删除告警。

网络故障通知

每当发生警报时,通知机制可以通过短信和/或电子邮件通知管理员,还可以配置为在发生警报时自动运行外部程序或自主开发的脚本。

SNMP 陷阱支持和自定义 MIBS 支持

现在的大多数网络设备都能够在发生故障时发送SNMP陷阱。一个好的故障监控系统应该能够支持SNMP陷阱,并为操作员提供有意义的信息。 OpManager 故障监控工具,它通过提供对基本SNMP陷阱的开箱即用的支持来做到这一点。操作员还可以添加对来自任何自定义SNMP MIB的陷阱的支持。还可以提取与SNMP陷阱一起作为变量绑定(SNMP varbinds)发送的有用信息。

警报和阈值

故障监视器支持各种警报机制,并且可以在设备或服务出现故障时向操作员发出警报,还可以配置为在设备上的服务或运行状况检查计数器超过或低于特定限制时向操作员发出警报,操作员还可以添加对来自任何自定义SNMP MIB的陷阱的支持。

确认警报

在同时处理多个警报时, OpManager 允许操作员快速标记他们已经启动操作的警报,就像将电子邮件标记为已读或未读一样,确认警报是另一个小而非常有用的功能,操作员可以跟踪新警报以及已经读取并采取行动的警报。

自动故障修复

OpManager的故障管理系统以自动化的分步方式执行故障修复过程,如下所示:

  • 故障检测:系统发现服务交付已中断或性能下降。
  • 故障诊断与隔离:确定故障的根源(例如组件故障或断电)及其在网络拓扑中的位置。
  • 事件关联和聚合:单个故障可能导致多个告警,故障管理系统通常会为管理员对相关事件进行分组并提供根本原因分析。
  • 恢复服务:网络管理系统会自动执行任何预配置的脚本或程序,以尽快启动并运行服务。
  • 问题解决:纠正、修理或更换故障源。根据病因,可能需要人工干预。
  • IT 工作流自动化:OpManager内置工作流机器人,可自动执行多个故障修复任务,可以根据警报自动执行多个操作,同时针对根本原因对警报进行故障排除。例如,可以将设备移至维护模式、重新启动服务或服务器、在警报中添加注释、触发故障单进入帮助台、执行脚本以纠正系统上的故障,甚至执行另一个工作流。
  • 运行程序简介:通过支持插入任何程序,管理员可以将OpManager配置为执行自我修复脚本,批处理或任何执行纠正措施以修复故障的程序。例如,可以执行一个简单的程序,在屏幕上针对特定故障弹出警报,甚至强制重新启动系统上的服务服务器。

OpManager 作为网络故障管理系统的强大功能可帮助管理员检测、恢复和限制网络故障的影响,通过ICMP ping、TCP 或 UDP 端口检查、自定义脚本、远程查询等检查设备状态来检测事件。

相关推荐
豆豆豆豆变7 小时前
docker之compose篇
docker·容器·自动化运维
第八学期12 天前
用Ansible Roles重构LNMP架构(Linux+Nginx+Mariadb+PHP)
linux·nginx·重构·架构·ansible·自动化运维
第八学期13 天前
Ansible Eoles详解
linux·运维·自动化·ansible·自动化运维
第八学期16 天前
Ansible变量详解(变量定义+变量优先级+变量注册+层级定义变量+facts缓存变量)
linux·运维·自动化·ansible·自动化运维
考虑考虑18 天前
乌班图设置时间
运维·后端·自动化运维
Johnstons2 个月前
AnaTraf | 全流量回溯分析:网络故障排除的 “时光回溯机”
运维·网络故障排除·网络流量监控·网络流量分析·网络性能监控·全流量回溯分析
帅儿二郎2 个月前
ELK:日志监控平台部署-基于elastic stack 8版本
linux·运维·elk·自动化运维·elastic·日志监控平台·日志分析平台
concisedistinct2 个月前
在多数据中心环境中,自动化运维如何保证跨区域的一致性?网络延迟导致的数据不一致是否可以完全避免?|自动化运维|跨区域一致性
运维·网络·自动化·自动化运维·数据中心
winkee2 个月前
OpenSSL 使用 pkcs#8 格式来封装密钥
linux·自动化运维·devops
Super-Yb2 个月前
AnaTraf | 全面掌握网络健康状态:全流量的分布式网络性能监测系统
网络·分布式·tcp/ip·网络故障排除·网络性能监控