作者:来自 Elastic Leah McEwen

IT 停机如何影响公共信任
去年,停机给公共部门造成了 1.93 亿美元的损失 ------ 而财务打击只是开始。除了数字之外,公共部门的停机还可能对公民产生严重后果:关键在线服务中断、福利延迟以及紧急响应受阻。当公民无法依赖政府服务时,停机不仅仅是一个不便问题;它关系到信任。
对于现代政府来说,比起正常运行时间,韧性是新的成功指标。公共部门的成功不仅以可用性衡量,还取决于机构在问题影响公众之前,能够多快检测、理解和解决问题。
在复杂架构、分布式团队和不断增加的网络威胁的环境中,机构需要能够预见问题、适应新工作负载、保护公民数据并在压力下保持连续性的系统。这需要一种新的可观察性方法 ------ 以智能为基础,由数据驱动。主要挑战是什么?就是应对公共部门 IT 环境的规模和复杂性。
复杂性挑战:混合、多云与关键任务
公共部门 IT 已发展成一个庞大且互联的生态系统,涵盖传统本地系统、多云应用、必须保持隔离的空气隔离或机密环境,以及分布在各州、各机构和任务合作伙伴之间的关键基础设施。每个环境都至关重要,每个系统都承担着关键任务工作负载,每一层都会产生大量数据,机构必须实时观察、理解并采取行动。
传统监控分散在孤立的仪表板、断开的工具和手动关联工作流中。团队最终在控制台之间切换,手动拼接日志、指标和追踪,并在公民感受到影响很久之后才对问题做出反应。公共部门 IT 团队需要跨多样化系统和服务弥合可视性差距的方法。
这就是可观察性(observability)的作用。
可观察性提供跨每个应用、网络、系统和环境的统一、数据驱动视图。通过连接遥测源并自动关联信号,可观察性帮助团队准确定位故障点、原因、起点以及如何防止其再次发生。在复杂环境中,可观察性恢复了系统的一致性。
但即便有了正确的可视化模型,仍然存在一个挑战:数据治理。公共部门机构不能简单地将所有遥测数据集中或复制到单一环境 ------ 尤其是在处理机密记录、受监管的工作负载和敏感任务数据时。任何现代解决方案都必须尊重边界、维护主权并确保合规,同时仍然提供统一洞察。
数据网格治理:无需集中化的统一可观察性
机构不必放弃控制权即可获得可视性。数据网格将数据连接到其原始存放位置,无需复制或迁移。该去中心化模型让机构保持完全主权,将敏感信息保留在适当的边界、司法管辖区和系统内。这种数据网格方法不仅增强了合规性,还通过避免不必要的复制降低了存储和传输成本。它规避了通过单一脆弱瓶颈集中处理所有数据带来的性能和可用性风险。
数据网格为机构提供了无需集中化的统一可视性 ------ 这一模型天然符合合规和控制要求。而且由于它保持了分布式环境中遥测数据的可访问性,它为 AI 驱动的可观察性提供了理想基础,使机构能够安全且大规模地运行高级分析。
为什么 AI 驱动的可观察性对政府至关重要
如果停机会侵蚀公共信任,那么正常运行时间就是公共部门 IT 使命的核心。但没有能够跟上政府系统生成的大量数据的工具,维护正常运行时间是不可能的。机构需要在混合环境中实现更快的诊断和快速响应。
AI 通过为公共部门可观察性提供强大的数据处理能力,改变了可能性。它通过识别模式、标记异常、预测停机并在几秒内揭示根本原因,实现检测、关联和修复的自动化。对于政府机构,这意味着:
-
任务连续性:通过自动检测和关联,团队可以在问题升级为停机前很久就发现潜在问题。机构可以保护面向公民的服务连续性,最小化中断,并维持依赖始终可用的数字体验的信任。
-
合规自动化 :持续监控提供实时保障,确保系统符合严格的美国联邦要求,如 FedRAMP、M-21-31 和 CMMC,以及欧盟的关键法规,包括 GDPR 和 NIS2。机构无需依赖周期性检查或人工审计,即可持续获得其风险和安全状况的可视性,确保与不断变化的要求保持一致。
-
效率:通过自动化常规诊断、关联和报告任务,AI 让过度负荷的 IT 员工能够专注于更高价值的工作。团队可以投入更多时间于战略现代化和任务支持。
-
数据主权:通过利用数据网格方法,机构能够完全控制其数据的存放位置及治理方式,同时获得统一的企业级运营健康视图。本地控制与全球可视性平衡确保洞察自由流动,而不会影响司法、法规或安全要求。
因此,AI 驱动的可观察性正迅速成为政府运营的必需品。挑战不再是是否采用,而是如何保证其提供有意义的结果。
http://www.elastic.co/industries/public-sector/leveraging-ai-driven-observability
构建模块:日志、指标和追踪
每个韧性系统背后都有高质量遥测的基础。可观察性的三大核心支柱 ------ 日志、指标和追踪 ------ 验证系统的可靠性、安全性以及是否符合联邦要求。它们是任何成功的 AI 可观察性实践的关键。
-
日志记录事件的详细信息。
-
指标量化性能随时间的变化。
-
追踪跟踪跨服务的请求,以展示系统流程和瓶颈。
这些遥测信号结合起来,帮助机构审计行为、验证系统完整性并高效排查问题 ------ 所有这些对于任务执行和合规报告所需的持续监控至关重要。
开放标准,开放政府:OpenTelemetry 的作用
像 OMB M-21-31、NIS2 和 GDPR 这样的政府规定要求跨系统的持续监控,而这只有在工具能够使用相同语言时才可实现。互操作性和透明性是现代环境中可观察性的基础概念,使开放标准对于现代公共部门技术至关重要。
OpenTelemetry(OTel)提供了一个标准化、供应商中立的框架,用于对遥测数据进行检测、收集和导出。借助 OTel,公共部门团队可以在联邦、州和地方系统中生成一致的遥测数据。这种一致性减少了代理泛滥、供应商锁定和技术摩擦,同时保持一致、可审计的遥测来源,以便更好地监督和合规。
Elastic 的开源设计方法自然契合这些目标:作为 OTel 的主要贡献者,Elastic 使机构在采用开放标准时无需牺牲灵活性或规模。无论数据来自传统系统、现代微服务还是多云环境,Elastic 对 OTel 的支持确保机构能够在所有系统中以一致、标准化的方式收集和共享遥测数据。
可观察性中的开放标准加速了跨机构协作,使团队能够共同排查问题,并使运营数据更易访问和审计,帮助机构构建透明、负责任的数字服务,让公众信任。
优化规模与降低 IT 停机成本
那么,为什么要采用 AI 驱动的可观察性?
首先,是为了应对机构产生的日益增长的数据洪流。政府系统生成的数据比以往任何时候都多。云扩展、数字服务、边缘设备、IoT 传感器以及网络监控都促成了遥测数据的爆炸性增长。没有策略,成本会迅速膨胀。
Elastic 的方法结合了数据网格架构、搜索驱动分析和分层存储,以在性能和成本控制之间取得平衡。
-
跨集群搜索允许团队在多个远程集群上运行单一查询,实现无缝、大规模可视性。
-
可搜索快照以成本高效的方式快速访问历史或不常用数据。
-
细粒度基于角色的访问控制确保敏感信息保持保护和合规。
由于 Elastic 的数据网格与现代安全框架(如 Zero Trust)保持一致,机构可以增强韧性和互操作性,即便在最复杂的环境中也是如此。
结果:机构在保持任务所需的速度、规模和可审计性的同时,降低了基础设施成本。
AI 与 AIOps:从被动到预测
通过 AIOps、自动化和异常检测增强可观察性,AI 成为强大的数据驯服者,将监控从被动转向预测。
多年来,政府机构 IT 团队一直陷于被动应对的循环中:等待警报触发、忙于收集分散数据、在压力下诊断问题、跨团队升级并争分夺秒恢复服务以免公民受到影响。AI 从根本上重塑了这一工作流程。
AIOps 实时分析海量遥测流,创建一个始终在线的智能层,自动检测异常、关联相关警报、预测潜在停机、定位可能的根本原因,甚至推荐或执行修复步骤。
生成式 AI 通过上下文感知 AI 助手进一步加速这一转变。技术团队可以用对话方式询问系统健康状况,助手即时分析根本原因、生成推荐的下一步操作,并自动起草状态更新、事件摘要和修复计划,将数小时的手动工作压缩为瞬间完成。
但对于公共部门,有一个要求高于一切:可解释性。AI 必须可解释:机构必须理解 AI 系统如何得出结论,确保每项推荐符合合规要求、治理框架和公共问责标准。因此,透明追踪 AI 推理能力是 AI 驱动工具中必须关注的关键特性。
可观察性与安全:构建任务韧性
在当今威胁环境下,运维与安全不再能孤立运作。Zero Trust、网络韧性和联邦现代化战略都指向一个共同需求:统一的态势感知。
当可观察性与安全协同实施时,它们提供了任务韧性所需的实时可见性。
通过将性能数据与安全信号关联,机构可以检测因欺诈活动引起的性能异常、隐藏在操作噪声中的安全事件、配置漂移或异常行为引发的停机,以及可能危及公民数据或关键系统的漏洞。结果包括:
-
为 SRE 和安全团队提供集中可见性
-
减少工具泛滥并简化操作
-
增强 SOC、NOC、DevOps 和任务团队之间的协作
当可观察性与安全融合时,机构能够在提供更优质公民服务的同时捍卫任务。
公共部门 IT 与任务目标对齐
政府机构的 IT 解决方案必须以任务成果为起点 ------ 技术只有在推进这些目标时才有价值。这就是为什么机构正在转向任务可观察性,这种方法将系统性能直接与公民成果关联。实际例子包括:
-
后端服务保持可靠响应,从而加快案件处理速度
-
更可靠的应急通信系统,实现快速响应和协调
-
为更新许可证、提交福利申请或获取医疗服务的公民提供更顺畅的数字体验
Elasticsearch 平台在支持这一转变方面具有独特优势。通过将技术遥测与任务 SLO 连接,机构可以更好地了解其系统如何影响公民信任和任务影响。
借助任务级可观察性,IT 团队从支持职能演变为交付全机构成功的战略合作伙伴。
下一步:评估你的可观察性准备度
你的机构是否为下一波复杂性、AI 应用或不断增长的公民期望做好准备?
我们的电子书可以帮助你评估可观察性成熟度,并发现构建任务就绪韧性的实际步骤。
想看看你的机构表现如何?下载你的免费电子书。
- Consultancy.uk,"在线停机每年给公司造成 4000 亿美元损失",2024 年 6 月。
本博文中描述的任何功能或特性发布时间和时机完全由 Elastic 决定。当前不可用的功能或特性可能不会按时提供,甚至可能根本不提供。
在本博文中,我们可能使用或引用了第三方生成式 AI 工具,这些工具由各自的所有者拥有和运营。Elastic 对第三方工具没有任何控制权,也不对其内容、操作或使用承担任何责任,也不对你使用这些工具可能造成的任何损失或损害负责。在使用 AI 工具处理个人、敏感或机密信息时,请谨慎操作。你提交的任何数据可能会被用于 AI 训练或其他用途。无法保证你提供的信息会被安全或保密处理。你在使用任何生成式 AI 工具前,应熟悉其隐私政策和使用条款。
Elastic、Elasticsearch 及相关标志是 Elasticsearch B.V. 在美国及其他国家的商标、标识或注册商标。所有其他公司和产品名称为其各自所有者的商标、标识或注册商标。
原文:https://www.elastic.co/blog/maintaining-public-trust-with-ai-observability