【本场景来源于 擎创科技《一体化数智运维AIOps解决方案》白皮书,经过重新编写】
该场景主要围绕生产运行、运营决策两个维度进行展开,通过对配置、性能、业务等运行数据的加工计算,形成可量化运营效果、可衡量发展方向的运营数据。整体以低代码平台为底座,以运营分析和业务目标为导向,将运营数据作为抓手,通过可视化的形态提供管理和决策依据。
场景简介
需求背景
IT建设是金融数据中心的工作核心,它作为金融机构的核心支撑系统,对于业务运营分析有着不可忽视的重要性。但在不断的建设投入过程中,由于没有结合银行的具体业务特点和发展战略,缺乏持续优化和完善分析能力,导致始终没有适合运维领导关注的视角可用,无法及时掌握执行者的效率效果,更无法清晰的感知到管理方向与当下业务现状是否匹配。
面向场景
01 生产运行
重点监测数据中心的服务质量、资源利用率、基础设施效能等关键运维指标,实现故障预测、容量评估、配置优化、节能降耗等,助力运维人员提升数据中心的运营效率。
02 经营决策
通过服务需求评估、目标考核、投资规划、业务规划等方面的支持,通过业务量预测、成本分析、价值评估等手段提供决策依据,以指导数据中心战略发展方向。
主要功能
1 数据中心运行监测
对业务交易、应用组件、IT设备等运行情况进行整体监测;根据各种设备分布及变化态势对重要业务系统运行情况进行实时分析;时刻展示故障应急、服务请求、变更事件等的工作效率,为管理者清晰提供运行状态。
2 IT资源成本核算
从项目、部门等多个角度展示数据中心各部门的IT成本分布,以财务角度进行IT资源使用情况的细算,量化IT投入,多方面分析IT资源使用率,以便管理者进行资源调配和管控,实现有效降本。
3 运营监控中心
覆盖PC、移动两大端口,对周期性业务系统进行多维分析,对关键业务系统交易变化分析,综合体现业务情况;并能够从业务、运维服务、研发效能、性能、资源等维度对业务系统进行综合画像。
4 运维数字化门户
提供统一的运维工具访问入口,集中认证管控,打通运维工具间的屏障,提供端到端的运维服务。同时,也为运维分析提供统一入口,打破运维数据壁垒,全面感知运营成效。
举个例子
关键词:高访问量、自动扩容、动态调度
2023年双十一期间,某国有大行作为国内主要的线上支付渠道之一,网银交易系统处于高负荷状态运行。当日上午10点,系统开始出现响应延迟,且接口超时请求激增。运维小张即刻查看智能运维平台,发现系统已自动将异常信号聚合并上报预警。
平台通过关联运营数据发现,当前系统负载已经超过了历史双11高峰时的75%,预计还会持续增长。而资源利用率数据显示,内存和CPU使用率正在逐渐攀升,网银各个模块及依赖的中间件集群已经出现资源紧张的状况。此时,小张利用平台数据做出判断,如果访问量继续增加20%可能会出现宕机情况。
于是,他决定启动扩容预案,由运维平台自动计算所需资源,向云平台申请新的虚拟机资源,分批投入网银集群运行。同时关闭部分非关键功能模块,将资源集中到核心交易服务上。
扩容过程中,智能运维平台持续监测关键指标,并根据负载情况动态调整扩容规模,确保交易顺利处理。随着网银系统资源得到补充,各项性能指标逐渐恢复正常。14点网上支付交易高峰过后,系统性能压力明显减轻。双11当天,该行网银系统共成功处理近3亿多笔支付交易,再次圆满保障了重大营销活动的顺利进行。
该案例中智能运维平台展现出强大的运营分析和动态调度能力。通过实时关联监控数据,对业务峰值做出准确预判,并采取主动扩容等策略, 自动化进行智能调度,大幅提高了运维效率,最大限度确保了业务的正常运行。
建设思路
1 调研并确定场景目标
从组织架构、管理模式、应用架构到技术栈、痛点、现存工具情况、数据情况等多方面综合调研,并与管理者沟通确定业务目标、展示目标、场景边界等。
2 场景需求梳理
理解用户需求,摸清核心业务逻辑,根据场景需要梳理数据要求,产出页面草图,为后续建设提供方向引导。
3 数据梳理
按照数据来源、模型、架构、采集方式、质量要求、规范和标准、生命周期等对重要数据进行归纳统筹,清洗数据为分析场景提供坚实的底座。
4 设计实施
按照草图,进行页面设计、风格设计、布局确认、原型设计、页面配置、前端配置、数据对接,最终完成大屏、PC端及移动端三端全覆盖。
------------ THE END ------------