云平台和虚拟化智慧运维监控，全面提升故障感知与处置能力

随着云计算、大数据技术等发展，虚拟化的普及不断深入，已成为现代IT基础设施建设中不可或缺的组成部分，成为推动企业数字化转型的关键力量。虚拟化的应用在降低软硬件成本和复杂性的同时，如何保障虚拟环境的高效运行，也给运维人员带来了更大的挑战。

北京智和信通虚拟化监控运维方案通过对虚拟化环境的实时监控和深入管理，提高对虚拟化故障的感知、分析、解决能力，保障其性能高可用和环境的稳定。

第1章 灵活的虚拟化监控方式

方案提供两种方式对虚拟机进行监控，一种是作为宿主机的虚拟机资源进行监控，另一种是将其作为真实主机（操作系统）进行监控。两种监控方式均通过主动轮询和日志解析的方式监测虚拟机的常见性能，不同方式的监控范围和内容有所差异。

1.1. 作为宿主机的虚拟机资源监控

对宿主机可实现如Ping服务成功率、Ping平均响应时间、CPU使用率、内存使用率、磁盘使用率、虚拟机（数量、清单、操作系统）、网络接口流量带宽等指标的监控。

对虚拟机资源可实现如CPU使用率、内存利用率、磁盘容量，磁盘使用率、网络流量等监控；在控制方面可以对虚拟机可以进行重启、备份、镜像等操作。

1.2. 作为真实的主机（操作系统）监控

在此种方式下，根据虚拟机所安装的操作系统来进行监控和控制，支持的监控指标和控制能力和对操作系统的监控相同。

监控指标包括ping、CPU使用率、内存使用率、磁盘使用率、网口流量带宽、进程、服务、TCP连接数、端口等。控制能力包括一键开关机、重启、进程管理、应用管理、容量管理等。

第2章 丰富的虚拟化 监控 范围与 指标

方案以实时监控和可视化呈现为核心，通过高精准的数据采集和智能数据分析处理机制，实现对虚拟化环境的全面监测和秒级故障预警。

2.1.虚拟化 监控模型及指标扩展

资源监控是对虚拟化环境进行运维管理的关键，方案通过构建对VMware、Xenserver、Hyper-V、KVM、K8s（Kubernates）等关键指标的监控，帮助运维人员了解虚拟机的工作负载定位其性能瓶颈，并采取相应措施优化其性能。

同时采取用户自定义扩展虚拟化类型、版本及其资源的方式，赋予用户强大的适配能力，其他虚拟化也可通过灵活可配的模型库进行扩展适配，最大可能地实现对不同品牌、不同版本虚拟化的管控；支持自定义虚拟化类型、虚拟化资源、故障监视器、性能监视器、TRAP监视器等。

2.2.常见虚拟机监测点和指标

本方案通过主动轮询和日志解析的方式对虚拟机常见性能指标，如响应时间、CPU使用率、内存使用情况、磁盘IO性能以及网络吞吐量等进行监控，同时除内置的常见指标外，其他资源和指标也可以通过模型库不断进行拓展。

|----------|-----------|------------------------------------------------|
| 监控目标 | 资源监测点 | 监测指标 |
| 宿主机 | 基础信息 | 品牌、名称、版本等 |
| 宿主机 | Ping | 连接状态、响应时长、服务成功率等 |
| 宿主机 | CPU | CPU使用量、CPU使用率等 |
| 宿主机 | 内存 | 内存使用率、活动内存、内存总量等 |
| 宿主机 | 磁盘 | 磁盘使用率、磁盘总容量、磁盘读IO、磁盘写IO、磁盘读速率、磁盘容量预测等 |
| 宿主机 | 网口接口 | 接收/发送流量、接收/发送数据包数量、接收/发送丢包率、接收/发送速率等 |
| 宿主机 | 虚拟机 | 虚拟机清单、运行的虚拟机个数、关闭的虚拟机个数、其他状态的虚拟机个数等、CPU、内存、磁盘等 |
| 虚拟机 | 基础信息 | 操作系统、电源状态等 |
| 虚拟机 | Ping | 连接状态、响应时长等 |
| 虚拟机 | CPU | CPU使用量、CPU使用率、CPU个数等 |
| 虚拟机 | 内存 | 内存使用率、活动内存、内存总量等 |
| 虚拟机 | 磁盘 | 磁盘使用率、磁盘总容量、磁盘读IO、磁盘写IO、磁盘读速率、磁盘容量预测等 |
| 虚拟机 | 网口接口 | 接收/发送流量、接收/发送数据包数量、接收/发送丢包率、接收/发送速率等 |
| 虚拟机 | 进程 | 状态、ID、名称、路径、参数、系统进程数、运行进程数、空闲进程数、CPU占用率内存占用率等 |
| 虚拟机 | 文件系统 | 状态、总空间、剩余空间、文件类型、文件修改、文件数量等 |

第3章虚拟化实时监控和预警管理

针对各类虚拟化场景建立全面的监控运维体系，深入监控其内部资源和整体运行状态，提升虚拟化环境可靠性，保障业务系统稳定运行。

3.1.自动发现虚拟化设备

智和信通具备独特的自动发现技术，在网络可达范围内，仅需输入IP范围即可自动发现网络中的宿主机和虚拟机，识别虚拟机类型、版本、操作系统等信息，获取宿主机和虚拟机内部资源，匹配故障与性能监视器，并自动发现虚拟机与其他设备的连接关系，生成可视化链路，通过可视拓扑动态展示虚拟化、链路的运行状态。

3.2.自动生成网络拓扑

方案以图形拓扑的形式展现虚拟机在网络中和其他设备间的拓扑关系，支持树形结构和平面结构的联动展示，也可以按片区、按地域、按层级等多种布局方式划分网络，在拓扑中以不同颜色图标、光效展现虚拟化的实时状态信息。

在拓扑图的基础上，进一步展示虚拟化的内部细节，以图形方式展示虚拟机CPU使用率、内存使用情况、磁盘IO性能以及网络吞吐量等关键指标，对虚拟机进行细化监控，实时告警，事前管理，降低故障发生率。

3.3.虚拟机性能态势感知

全面采集虚拟机的各项性能指标，如CPU使用率、CPU就绪时间、内存使用量、内存页交换率、磁盘读写请求、磁盘延迟时间与队列长度、网络接口的吞吐量、包传输错误以及丢弃包等，并按照时间范围、资源类型、性能指标等多种维度，以图形、表格等多种形式进行展示。

对实时、历史性能数据进行统计分析，通过曲线图、柱状图或表格等形象化地展示，按天、星期、月查看性能指标变化。运维人员能随时把握虚拟化性能变化态势，防患于未然。

方案支持选择多台虚拟机进行同维度性能数据分析，提供可视化性能对比视图，通过性能对比分析虚拟机性能变化趋势。

3.4.虚拟机自动巡检

可自定义虚拟机的巡检策略，预设时间自动执行虚拟机巡检，定期巡查虚拟机实时运行状态，并向指定邮箱发送结果报告，可自行选择要统计的虚拟机所属网络、虚拟机类型、虚拟机资源、虚拟机支撑的业务、虚拟机关联的链路等范围类型，生成巡检报表。

3.5.日志与事件管理

接收虚拟机主动发送如非正常关机、意外重启、内存管理错误、进程调度问题、服务无法正常启动、应用程序异常终止、应用运行错误、登录失败、权限变更等事件与日志消息，集中存储、解析处理后，将错误、告警、攻击行为等异常信息及时地通知用户。

通过实时监控虚拟机的日志和事件信息，运维人员能够准确得知虚拟机资源的使用情况、用户行为、应用程序错误、系统故障等关键信息，在统一界面集中管理，及时发现和解决虚拟机故障、观察系统运行情况、预测系统的使用情况，作为性能瓶颈和故障排查的重要依据，帮助运维人员更好地维护和管理虚拟化环境。

3.6.故障告警与智能收敛

搭载多种告警机制，自定义配置告警阈值，具备主动的故障监控功能，从众多的事件和状态中，系统地将零散的状态信息总结成为当前状态，并对异常状态进行告警，第一时间获取准确的告警信息，快速标示已执行操作的告警，迅速定位产生告警的虚拟机，提升告警处理效率，极大降低因虚拟化故障带来的损失。

告警管理采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告降噪机制，通过AI算法，对各类告警进行自动压缩收敛，减少90%的无效告警，抑制告警风暴，有效避免误报和漏报，直达故障根因。

第4章虚拟机承载的业务状态拨测

针对虚拟机所支撑的业务应用性能与用户体验进行检测分析，无需安装插件就可以为用户提供开箱即用的企业级主动拨测式业务监测。以拓扑形式展示每个业务流程中的每台相关设备，支持设备逻辑视图和面板视图，展示业务流程中涉及的所有的设备之间的链路关系，流程方向。

构建包含各业务整体流程的调用依赖关系图谱，展示业务部署中网络设备间多维度关系拓扑。对从业务的前台受理到真正完成的整个业务流程所依赖的业务应用、虚拟化、操作系统等进行实时监控分析，呈现业务各节点的实时运行状态，包括用户体验、节点可用性、节点负载等状态信息，快速定位业务瓶颈根因，并可根据用户自愈策略，触发自动运维实现故障自愈。

第5章统计报表和大屏展示

通过定义虚拟机相关数据报表的能力，实现虚拟机性能和状态的灵活展现和统计分析，通过对比、TOPN等分析方式并结合报表排序规则、过滤规则等能力，周期自动生成报表，帮助用户更好地了解虚拟机的各项负载情况和运行态势，为优化资源配置和性能调整提供依据。

通过大屏展示核心运维数据态势，细粒度可达网络中虚拟机、虚拟机资源和链路。所有的网络故障与性能瓶颈都一目了然地呈现，大大降低了管理成本，同时也提高了运维人员处理故障的能力，节省的故障处理时间，为运维人员管理网络提供了可靠的保证。

第6章虚拟机远程控制和编排式配置

方案提供虚拟机远程控制的能力，采用"监控+运维+控制"的方式，将不同系统、不同版本的虚拟机统一纳入控制管理。通过智能算法对虚拟机的资源配置进行智能动态调整，当虚拟机出现性能瓶颈时，自动调优资源配置，优化虚拟机运行环境，当虚拟机发生故障时，自动启动自愈机制，快速恢复虚拟机的正常运行。

6.1.虚拟机远程配置执行

将周期性、重复性、规律性的大量日常虚拟机维护工作，如一键开关机、重启、备份、镜像、进程管理、应用管理、容量管理等运维工作，转化为依托于平台的自动执行工作流，实现对虚拟机的批量、定时自动化控制管理。

6.2.运维编排──以（VMware ESXi虚拟机磁盘扩容为例）

以虚拟机实时监控和日志、事件管理为基础，通过多指标聚合检测动态识别虚拟机运行状态，根据真实运维场景和流量编排自动化运维作业流程，减少人工干预，提高运维效率。

下面以VMware ESXi虚拟机磁盘扩容为例，介绍如何通过智和网管平台实现虚拟机运维编排。

效果要求：当虚拟机 磁盘容量不足 时， 进行告警提示，运维人员可在核验后一键进行虚拟机磁盘扩容 。

第一步：将需要管理的虚拟机纳入平台进行监控，并设置虚拟机磁盘容量监视器，虚拟机磁盘空闲率小于10%时进行告警。

第二步：进入安管模块的运维编排菜单，创建【VMware ESXi虚拟机磁盘扩容】策略。根据真实虚拟机磁盘扩容过程，通过进行策略节点拖拽编排的方式规划扩容流程。

第三步：配置触发方式。策略支持自动触发和手动触发两种方式，根据用户实际运维场景和工作流程，本策略适宜选择手动触发的形式进行虚拟机磁盘扩容。

编排流程配置完成后，当出现虚拟机磁盘空闲率告警时，用户手动触发策略对告警进行校验，如空闲率低于预设阈值，则自动进行磁盘扩容。并在执行过程中，对每一步处置操作进行记录形成日志，确保有迹可查。

第7章应用价值

北京智和信通虚拟机监控运维方案，通过集中运维的功能，将分布在不同物理服务器上的虚拟化环境进行统一管理，在全量监控的同时，简化运维流程、降低运维难度。运维人员可以在智和网管平台的统一界面上，实时监控虚拟环境的运行状态，并进行性能调优、故障排查等操作，大大提高工作效率。

通过方案的实施实现对虚拟化环境的深入监控，运维团队能够及时获取虚拟机状态、系统性能等关键信息，整体运维工作从传统的被动响应模式转变为积极主动的预防策略。一旦系统检测到异常信息，便会立即触发告警机制，并结合自动化运维能力，快速实现故障自愈。这种转变不仅显著减少了因虚拟机故障导致的宕机时间，也极大地降低了上层业务中断的风险。

得益于方案强大的监控模型能力，不仅可以将虚拟机作为宿主机的资源进行管理，也可以将其作为独立的服务器进行运维。这样一来就给虚拟机的监控和控制提供了更多的可能，如自动化部署、磁盘扩容、备份恢复等等，进一步降低运维成本，释放设备价值。

同时，通过对虚拟化环境的精确监管、全面覆盖的功能、智能化的运维编排和强大的模型扩展能力，智和信通虚拟化监控运维方案正在成为越来越多用户优化IT运维、提升业务连续性的选择。