主播:谷青一
在本次直播中,我们深入探讨了监控易的一系列核心功能,这些功能旨在为运维工作提供强大的数据管理与可视化支持,有效提升运维效率和决策的准确性。
一、仪表盘功能:数据可视化的核心工具
设备仪表盘概览 :设备仪表盘作为默认大屏界面,是运维人员获取设备信息的重要窗口。
其左侧清晰展示了监控设备的关键统计数据,涵盖设备总数、点数以及告警数量等,为整体监控状况提供了快速概览。通过点击,可便捷跳转至告警中心,获取更详尽的告警信息,深入了解系统运行状态。
下方的TOP5 统计能精准呈现不同种类设备的告警分布,鼠标悬停即可查看具体告警数量。未处理告警区域实时滚动显示告警详情,包括时间节点、设备及指标点数,确保运维人员及时掌握紧急情况。
中间部分则提供了比左上角全网信息统计更为细致的设备综合统计,点击设备运行状态可查看近 7 天的告警分布、重要告警指标及实施统计状态,全面呈现设备运行趋势。
自定义功能详解 :在设备仪表盘右上角,用户拥有强大的自定义功能。
以数据库服务器为例,可轻松对右侧图表进行个性化设置。如更改图表名称为核心服务器 CPU,并在监测点指标中精准选择设备(如档案系统)及具体指标(CPU 使用率),同时支持线图、柱状图、面积图三种直观的图形表达方式,并能灵活设置时间响应周期(如 1 小时、半天或 4 小时等),从而满足不同场景下对数据展示的需求,帮助运维人员快速洞察服务器 CPU 使用情况的动态变化。
二、我的仪表盘:个性化数据展示平台
****"我的仪表盘"为用户提供了高度定制化的页面。****用户可通过点击加号创建新的大屏页面(如"大屏一"),并根据需求添加各类图表。
无论是整体监测点状态的快速查看,还是特定设备(如核心交换机)详细指标(如 1 - 0 - 2 接口的发送流量)的深入分析,都能轻松实现。
在操作过程中,用户依次选择设备、监测点项和指标项,设置图表名称、时间范围和颜色等参数后保存,即可在页面上生成相应的数据展示。同时,通过右下角的小箭头,可方便地对图表进行拖拽、放大缩小等操作,实现布局的优化调整。
此外,用户还可将网络拓扑图等元素添加到"我的仪表盘"中,进一步丰富信息展示,使其成为满足个人需求的专属运维数据中心。
三、统计报表:运维数据的深度洞察
实时报告:高效多设备数据汇总:统计报表模块在运维工作中具有关键作用,其中实时报告功能尤为突出。
在传统运维中,查看多个设备数据往往需要逐个点击设备进行繁琐操作,而实时报告则可将当前采集的最新数据进行汇总。
以服务器报告为例,用户只需点击进入,即可一目了然地查看所有服务器的 CPU 使用情况,包括其所属分组及具体使用率。
同时,还能获取指标统计信息,如最大值、最小值和平均值的汇总数据,并且支持以 Excel 等格式导出,方便运维人员进行数据留存和后续分析。在服务器负载高峰期(如下午 2 点),运维人员可借助此功能快速评估所有服务器的负载状况,及时发现潜在问题。
故障报告:精准告警分类统计:故障报告主要用于对告警情况进行分类统计分析。
其添加步骤与实时报告类似,用户在选择设备类型(如服务器 OS)后,可根据实际需求选择统计策略,包括以发生告警为准或以改变状态为准,并可进一步设置告警触发条件(如三次故障发送一次告警)。
生成的报告能够按照不同时间范围(如今天、一周、一月或自定义时间)进行统计展示,详细列出告警设备的关键信息,如设备名称、IP 地址、故障次数、占比、开始时间、持续时间等,同时还会具体到监测点的故障情况,为运维人员快速定位和排查故障提供了有力依据。
top N 报告:突出重点数据排序展示:top N 报告在实时报告的基础上进行了优化,能够按照升序或降序的方式对设备使用率等指标进行排序展示。
用户在添加报告时,选择设备类型和指标项后,可根据需求确定统计方式(最新数据或平均值)和排序方向(从小到大或从大到小)。
例如,对于服务器 CPU 使用率,运维人员可通过 top n 报告快速找出使用率最高或最低的服务器,以及其对应的时间节点,从而聚焦关键设备,及时采取资源优化或故障排查等措施,提升系统整体性能。
流量报告:网络设备流量深度剖析:流量报告主要针对网络设备,以直观的图表和列表形式展示所有交换机接口的流量使用情况。
通过该报告,网络人员能够清晰地看到每个交换机接口的流量高低差异,进而分析网络流量的分布状况。
例如,对于一台同时承载移动和联通业务的核心交换机,运维人员可以根据接口流量使用情况,判断哪些接口未充分利用,从而考虑减少不必要的端口资源占用以节省成本;对于流量持续满载的接口,则可考虑增加端口或优化网络配置,以满足业务需求,确保网络的高效运行。
服务器报告:全面服务器状态监测:服务器报告为运维人员提供了服务器的多维度信息,包括可用性、响应时间、CPU、虚拟内存、物理内存、IO 使用情况以及告警信息等。
以档案系统为例,若出现故障或 CPU 使用率异常,运维人员点击相关数据可跳转到设备管理页面获取更详细的信息,同时右侧会统计告警数量并提供跳转到告警中心的便捷入口,帮助运维人员全面了解服务器的运行健康状况,及时发现和解决潜在问题,保障服务器的稳定运行。
光模块接口报表:新增功能助力精细化管理:光模块接口报表是监控易的一项新增重要功能。
当系统中添加了使用光模块的交换机后,该报表能够详细显示设备的关键信息,如设备名称、IP 地址、厂商端口号、波长、关公率、接收率、温度、电压等数据。
这些信息为运维人员对光模块设备的精细化管理提供了有力支持,有助于及时发现光模块的性能异常或潜在故障,提前采取维护措施,确保网络通信的稳定性。
四、巡检报告:自动化运维的有力保障
巡检计划制定与执行:巡检报告功能位于运维工具的巡检管理模块中。
用户首先需要制定巡检计划,例如创建一个服务器报告的巡检计划,指定巡检人员(如管理人员)和巡检周期(如日报,每天早上 6 点执行),同时可根据实际需求选择文件导出形式(包括 Excel、PDFA、word 和 html 四种格式),并且还能决定是否启用报告生成后的发送邮箱功能。
在设置过程中,用户可选择内置的巡检报告模板,并进一步选择设备类型(如服务器 OS),完成设置后点击保存即可。若需要立即执行巡检,可点击临时执行按钮生成巡检报告。
报告内容与分析:生成的巡检报告主要包含五个重要表头。
概览部分清晰地展示了巡检的设备总数、正常设备数量、故障设备数量以及危险设备数量等关键统计信息,让运维人员对整体巡检情况有一个宏观的了解。
巡检结果详细列出了不同类型设备(如应用和服务器、网络设备)的巡检数量、点数以及超出危险阈值和故障阈值的设备数量,并统计相应的告警数。
当前告警部分会明确显示设备的当前状态(如错误或危险)以及详细的告警描述,包括告警持续时间、开始时间和数量等信息。设备类型虽存在于数据库后台路径,但也为进一步的数据分析提供了参考。
此外,报告还会列出设备名称、IP 地址、监测点状态等信息,对于故障设备(如 ESXI 宿主机 102),会详细显示其故障原因(如硬盘错误)及相关数据情况,而对于正常设备(如文森特),则展示其监测点和指标数据情况。
通过这些丰富的信息,运维人员能够全面了解设备的运行状态,及时发现潜在问题,并采取相应的措施进行修复和优化。
五、其他实用模块:拓展运维管理视野
链路航线图:地理信息与网络链路的融合:链路航线图支持导入地图或城市信息,为运维人员提供了一种全新的网络链路可视化方式。
以北京和上海的机房为例,用户可在地图上添加相应的点,并设置为关键点,选择对应的经纬度和网络设备后进行关联。
在添加线路时,可选择设备和接口,完成后即可展示线路的流量速率、带宽使用情况、丢包率和延迟等关键数据。
通过这种方式,运维人员能够直观地了解不同机房之间的网络连接状况,快速发现网络瓶颈或异常,及时进行优化和调整,确保网络的稳定运行。
Visio视图 :个性化网络拓扑展示:Visio视图功能允许用户将自行绘制的微塑图与监控设备进行关联导入。
导入后,设备状态将以直观的方式呈现,正常设备显示绿灯,故障设备显示红灯,同时还可能以气泡形式展示设备的其他相关状态信息。
这为运维人员提供了一种个性化、直观的网络拓扑查看方式,有助于快速识别设备的运行状态,提高故障排查效率。
机房仪表盘:机房环境与设备综合管理:当使用机房模块时,机房仪表盘可统计机房数量、设备数量、告警数量以及机房所在城市和设备的故障正常情况。
同时,对于机房内的温湿度、烟感、UPS、空调等设备,可将其数据进行整合展示。并且,若监控了摄像头,还能抓取其实时视频流画面在左下角显示,获取的空调温湿度数据也会实时展示。
通过右上角的设置,用户可对仪表盘的布局、背景图、背景色等进行调整,还能编辑拖拽模块位置,使展示效果更符合个人需求,实现对机房环境和设备的全方位综合管理。
专线大屏:专线网络状态集中展示:专线大屏与链路环境图紧密关联,在链路环境图中设置好线路点和线后,专线大屏会集中展示线路的详细情况。
包括已添加的专线数量、通断状态、输入流量、抖动延迟等关键数据,让运维人员能够一目了然地掌握专线网络的整体运行状态,及时发现专线故障或性能问题,保障专线网络的稳定运行。
六、小结
通过对这些功能模块的详细介绍,我们可以看到监控易为运维工作提供了全面、高效、可视化的解决方案,能够帮助运维人员更好地管理和维护系统,提升工作效率和质量,确保系统的稳定运行和业务的持续发展。
无论是设备监控、数据统计分析,还是网络链路管理和机房环境监测,监控易都展现出了强大的功能优势,满足了不同场景下的运维需求。