【软考】系统分析师-论文范文(四)

论企业智能运维技术与方法

智能运维(Artificial Intelligence for IT Operations, AIOps)是将人工智能应用于运维领域,基于已有的运维数据(日志数据、监控数据、应用信息等),采用机器学习方法来进一步解决自动化运维难以解决的问题。具体来说,智能运维在自动化运维的基础上,增加了一个基于机器学习的智能决策模块,控制监测系统采集运维决策所需的数据,做出智能分析与决策,并通过自动化脚本等手段去执行决策,以达到运维系统的整体目标。智能运维能够提高企业信息系统的预判能力和稳定性,降低IT成本,提升企业产品的竞争力。

请围绕"企业智能运维技术与方法"论题,依次从以下三个方面进行论述。

1、概要叙述你参与管理与实施的软件运维项目以及你在其中所担任的主要工作。

2、智能运维主要从效率提高、质量保障和成本管理等三个方面提升运维水平,其成熟程度可以分为尝试应用、单点应用、串联应用、能力完备和能力成熟等五个级别,请任意选择三个成熟度级别,说明其在效率提升、质量保障和成本管理等方面的特征。

3、结合你具体参与管理与实施的实际软件系统运维项目,举例说明如何采用智能运维技术和方法提高运维效率、保障运维质量并降低运维成本,实施效果如何。在智能运维过程中都遇到了哪些具体问题,是如何解决的。

范例:

摘要部分:

月,我所在的公司中标了项目,内容包括的建设以及工作。在该项目中我担任系统架构师,负责系统的架构设计工作。本文结合该项目中个人的实践经验,介绍企业智能运维技术方法在该项目中的应用情况。我们通过引入Kubernetes实现微服务自动化弹性伸缩,保障在不同业务高峰时段的资源高效利用;引入Prometheus+Grafana实现微服务节点的观测,保障运维人员能及时收到服务预警信息;引入故障监测和自动重发机制保障系统间的数据一致性,降低了院方运维的工作量。项目于年**月正式上线并稳定运行至今,提升了院方运维人员的工作效率,获得了用户的广泛好评。【注意:实际写作中相关项目情况应介绍清楚,摘要字数(包括标点符号)一般写280到300字】

正文部分:

随着的全面推进,月,我所在的公司中标了项目。【项目背景内容可分2段写,第1段简要说明下项目来龙去脉】

该项目的主要内容包括**、的建设以及 工作。系统主要用于管理,包括 等功能。平台负责实现中心通过,并结合 实现*。在该项目中,我担任系统架构师,负责系统的架构设计工作。三甲公立医院的业务涉及患者生命健康安全,对系统的稳定性和运维的效率要求非常高,因此在该项目上我们引入了智能运维技术来实现整个项目的智能运维过程。【第2段对系统整体情况进行细致介绍,项目背景第1、2段内容可以写到400-450字左右】

智能运维主要从效率提高、质量保障和成本管理三个方面提升运维水平,其成熟度可以分为尝试应用、单点应用、串联应用、能力完备和能力成熟五个级别。尝试应用级的主要依赖人工操作,自动化工具初步引入但未形成闭环,效率较低,MTTR通常在数小时以上;质量保证方面监控覆盖不完整,缺乏根因分析能力,系统可用性约为99%;人力成本非常高,重复任务多,维护成本高且无预测性维护能力。单点应用级的自动化工具覆盖单个场景,MTTR能缩短至1小时内;质量保障方面建立了基础服务管理流程,故障定位准确率较高,系统可用性可达99.5%;运维人力成本有所降低(约20%),但仍然存在资源浪费的问题。串联应用级通过多工具联动实现自动化运维,MTTR一般在10分钟内;质量保证方面通过引入算法驱动的故障预测,系统可用性达99.9%;总体维护成本可通过预测性维护减少资源消耗,资源利用率能提升25%左右。能力完备和能力成熟级的系统可用性则分别能达到99.99%和99.999%。

在结合医院的实际场景并综合考虑了运维成本和实现成本后,本项目最终以串联应用级作为智能运维的成熟度建设目标,本文详细介绍如何该项目中用到的三种技术。

一、引入Kubernetes实现微服务自动化弹性伸缩

微服务是应对三级公立医院复杂的业务场景的必然趋势,但手工去维护这些微服务是很大的人工成本。本项目上我们基于云原生的架构去实现系统建设,各微服务用容器化方式打包成镜像,然后使用Kubernetes对这些镜像和副本容器的自动化部署和资源管理。但不同业务的高峰时段并不相同,比如上午时段是门诊业务的高峰期,而下午时间段则往往是住院新病人业务的高峰期,针对相应的微服务镜像分配固定节点数,容器分配固定CPU、内存等资源,显然不利于整个服务器资源的高效利用。因此微服务节点的资源分配应当实现自动化弹性伸缩。我们在Kubernetes中采用HPA + Cluster AutoScaler的方式实现微服务资源的弹性伸缩,当资源不足(如CPU使用率达到预设值)时,首先通过HPA实现Pod的自动增加,而节点资源不足时Cluster AutoScaler会自动增加节点,以确保Pod调度成功。反之,当节点利用率或资源使用率低于平均阈值时,Cluster AutoScaler和HPA也会进行自动缩容。据统计,在引入Kubernetes的弹性伸缩配置后,每天的门诊早高峰和下午的医嘱处理高峰期,服务器的CPU和内存使用率均未超过60%,满足了自动化调整服务资源的需求。

二、引入Prometheus+Grafana实现微服务节点的观测

在引入Kubernetes实现微服务镜像的容器自动化部署以及容器节点和资源的自动化弹性伸缩后,发现其在容器监测上存在一定局限性:无法获取操作系统级的监测指标(如磁盘I/O错误率等)、无法长期存储监测数据、不具备告警功能。为此我们引入Prometheus+Grafana工具来实现微服务节点的观测。首先,Prometheus定时(每5分钟)主动地从目标服务的HTTP接口拉取监控数据,通过适配器转换格式,如Mysql服务的Mysqld_exporter、应用服务的Node Exporter;其次,Prometheus内置时序数据库TSDB,按时间戳和Label存储数据;最后,由Grafana工具实现监控数据的可视化和告警规则的设置,并将告警消息推送到运维人员的钉钉上。Prometheus支持指标按metric标识进行灵活过滤和聚合,而且Grafana工具也支持20多种图标类型,我们在现场部署了一个非常直观全面的Grafana看板界面,可实时观测各服务节点的资源状况。在系统的运维期间,几次因批量上传疾病报卡数据导致Mysql数据库I/O飙升,现场的运维人员都得到了及时提醒并作出了相应处理,避免了医院正常业务受到影响。

三、引入故障监测和自动重发机制保障数据一致性

医院的医疗系统中有些专业性非常强的系统,比如LIS、PACS、输血系统等,与临床一体化系统之间业务耦合度非常高,我们采用集成平台来实现这类系统的业务集成,但某些时候因接收方服务故障或正在更新重启,往往会出现数据丢失不一致的情况,在项目运行中,多次出现因EMR微服务更新,医生在输血系统上开完申请单,EMR却丢失备血医嘱的问题。为此,我们在集成平台上引入故障监测和自动重发机制。首先,我们构建了针对ESB消息的实时监控平台,一旦出现某个消息服务连续20条消息的响应都为NACK,或一段时间内有大量格式异常的消息传入,监控平台都会发出告警,并将告警信息通过短信、钉钉的方式推送到运维人员的手机上,运维人员便可立即进行人工干预。其次,我们采用时间冗余手段,采用ElasticSearch存储异构的消息内容,一旦出现消息接收方无法正常处理消息的情况,集成平台每5分钟会进行一次消息重发,最多3次,也可在接收方处理能力恢复时手动重发。据院方运维人员反馈,在引入这两项机制后,大幅降低了他们在处理数据一致性问题上的工作量。

经过需求分析、系统设计、开发与测试等阶段,系统于月全面上线并稳定运行至今,院方运维人员反馈相较于上线前的旧系统,运维的工作量至少降低了50%,且系统故障率相较旧系统至少降低了80%,实践证明,智能化运维技术可以有效缓解医院业务复杂性高、并发量高导致的运维压力。然而在项目实践中,我们也遇到了挑战,比如为了实现微服务的日志追踪,我们采用了Jaeger抓取+Kafka传输+Elasticsearch存储的方案,但在几次业务高峰期都出现了微服务容器OOM的问题。后续我们换成了存储成本比Elasticsearch低90%、支持快速按标签过滤的Loki工具,结合Tempo(Grafana的追踪后端)解决了该问题。智能运维技术是医疗信息化发展的关键技术领域,我们团队也将在未来多学习相关方面的知识,为"健康中国"战略提供坚实的技术支持。

相关推荐
我只会写Bug啊16 小时前
【软考】系统架构设计师-论文范文(三)
系统架构·软考·系统架构师·系统分析师·十大管理·信息项目管理工程师
我只会写Bug啊17 小时前
【软考】系统架构设计师-论文范文(二)
系统架构·软考·系统分析师·十大管理·信息项目管理
软考通20 小时前
软考改革再提速!工信教考再招 2 人,2026 年软考会有哪些动作?
大数据·人工智能·职场和发展·职场发展·软考
snow@li21 小时前
软考中级:软考中级各方向的详细分类及科目介绍
软考·软考中级
不凉帅1 天前
NO.8软件架构演化和未来新信息技术
人工智能·软考·系统演化
ba_pi2 天前
每天写点什么2026-02-09(5)信息系统工程1
软考·高项
ba_pi2 天前
每天写点什么2026-02-08(4.2)信息系统管理
安全·软考
我只会写Bug啊2 天前
【软考】系统架构设计师-论文范文(一)
大数据·系统架构·信息系统项目管理师·架构设计·系统分析师
学历真的很重要5 天前
【系统架构师】第二章 操作系统知识 - 第二部分:进程与线程(补充版)
学习·职场和发展·系统架构·系统架构师