了解公共部门中的数据网格:支柱、架构和示例

作者:来自 Elastic Elastic Platform Team

想想那些像公共健康记录、城市规划模型等项目背后的所有数据。政府机构一直在产生大量数据。当数据分散在云平台、本地系统或像卫星和应急响应中心这样的专业环境中时,情况变得更加复杂。找到信息变得困难,更不用说有效利用它了。不同团队使用许多不同的应用程序和数据格式,导致真正的互操作性缺失。

尽管他们尽最大努力建设数据驱动的组织,但根据最近 Elastic 的一项研究,65% 的公共部门领导者仍然难以实现实时、规模化地持续使用数据。

"一位公共部门领导告诉 Elastic,'我们的工作时间变长了,这不好,因为我们的大多数工作都是紧急情况下完成的。我们需要尽快获取信息。'"

数据量在不断增长,访问却成了瓶颈。那么,公共部门机构如何摆脱那些集中式孤岛的复杂性?数据网格提供了一种组织数据的替代方式,可能就是答案。

什么是数据网格?

简单来说,数据网格打破孤岛。来自整个网络的数据可以在生态系统的任何或所有节点被检索和分析 ------ 只要用户有权限访问。它提供了一个统一但分布式的层,简化并标准化数据操作。

Elastic 数据网

数据网格的四大支柱

数据网格建立在四个关键原则上:

  • 领域所有权:机构和部门如何管理自己的数据
  • 数据即产品:领域所有者确保他们的数据集高质量且易于访问
  • 自助服务平台:让内部和外部团队在没有 IT 阻碍的情况下找到并使用高质量数据
  • 联合治理:确保系统之间一切顺利且安全运行

我们来仔细看看每个支柱。

领域所有权

数据所有权分散在政府机构和部门,而不是依赖中央 IT 团队管理所有数据。基本上,你是在建立与机构组成相对应的技术团队。你希望最熟悉数据的人来拥有数据。这适用于公共健康、国防、城市规划等几乎所有公共部门的使用场景。

例如,美国网络安全与基础设施安全局(CISA)采用数据网格方法,能够查看来自数百个联邦机构的安全数据,同时允许每个机构保留对其数据的控制权。

了解更多关于如何使用 Elastic 作为统一数据层加速 CISA 零信任

这引出了第二个(也可以说是最重要的)支柱 ------ 其他三个支柱都是为了支持它设计的:

数据即产品

每个数据集都被视为一个有明确文档和质量标准的产品。拥有数据的部门需要确保数据易于访问和组织,以便其他部门需要时能够使用。换句话说,他们对共享该数据作为可用产品负有责任和义务。

从政府角度来看,这可能是人口普查信息、应急响应数据或情报报告等,具体取决于项目或政府机构的结构。重要的是,这些经过整理的数据在其他团队查找时已经准备好使用,不需要花时间清理或验证。

那么,你可能会问,这不就是另一种数据孤岛吗?其他部门如何访问数据的具体方式是什么?这就引出了我们的下一个支柱。

自助服务平台

部门被要求承担很多任务,因此他们需要方便的平台,让他们的数据对其他人可访问。可搜索的目录便于发现数据,查询工具支持实时分析,用户还能自行清理和整合数据,通过仪表盘和 API 分享见解,这些都是可用的工具。

他们还需要内置的治理来执行访问控制,这就引出了最后一个支柱。

联合计算治理

我们已经确定每个部门控制自己的数据。然而,数据网格仍然需要整体的治理协议来确保安全并防范风险。

这些安全控制应内置于检索数据的系统中,而不是由各部门单独实施。系统应在搜索时检查用户权限,确保用户从一开始只能看到他们被允许访问的数据。

在公共部门,这可能涉及从医疗数据隐私法规到国防系统中的机密信息等各方面。

观看网络研讨会

数据网格架构

数据网格架构是将数据网格的支柱统一成管理分布式数据流程的框架。

实施数据网格架构减少了协作过程中的摩擦。由于其更以用户为中心的方法,它对处理特定领域数据进行模型训练和分析的团队来说是一个变革者。

尽管存在多个平台和实施团队,数据网格仍能实现更高效的数据处理和治理。数据网格架构带来更多自主权和数据民主化 ------ 前提是你拥有可扩展的自助式数据可观测性。数据可观测性让团队能够在一个统一界面下管理所有数据。

有效的数据可观测性内置于数据网格架构中。它让团队能够利用所收集数据的洞察。可以这样理解:数据可观测性是对数据健康和完整性的监控,而数据网格架构是对数据的去中心化管理。要管理数据,就必须能够详细地查看数据。

数据网格与其他方法的比较

数据网格与其他分析数据架构和存储形式相比如何?我们来看两个常被比较的:数据织物( data fabric )和数据湖( data lake )。

数据网格 vs. 数据织物

数据网格和数据织物都采用分散式方法,在远程地点收集数据,类似之处在于此。然而,数据织物会将一个地点收集的数据复制到另一个地点。数据作为单个记录共享,除非有能理解它的系统消费,否则无法与其他记录关联。这种方法常导致数据孤岛。

而数据网格方法不依赖复制数据,而是在分布式平台中对数据进行本地索引,用户可以在本地及远程地点搜索数据。在此模型中,数据在搜索平台层统一。数据只索引一次,授权用户或用例可以通过这一统一层访问。

数据网格 vs. 数据湖

你可能注意到数据中有很多与水相关的比喻:数据流( data streams )、数据管道( data pipelines )等。数据像水一样,可以被收集、存储、过滤和分发 ------ 有时高效,有时混乱。

正如湖泊汇集多条水源,数据湖汇集数据并保存以备将来使用。换句话说,它是结构化、半结构化或非结构化数据的存储环境。

数据湖有时对数据网格领域所有者有帮助,因为他们可以用它处理和整理数据产品。比如,可以用数据湖长期存储大型非结构化数据集(如卫星影像或公共记录),这些数据暂时没有具体用途。但如果数据湖变得无序难以导航,它就变成数据沼泽 ------ 混浊、杂乱且难以提取价值。

数据网格与人工智能

数据网格可以为公共部门机构实现 AI 和机器学习民主化提供一种方式。传统上,数据科学团队作为集中式枢纽运作,从多个来源提取数据以开发机器学习模型。然而,如前所述,这种过程可能导致重复工作和不一致性,造成模型可复现性方面的挑战。

通过数据网格颠覆这种模式,并将 AI 开发嵌入到领域团队中,可以在数据源头进行清洗和优化,创建其他部门可使用的 AI 驱动数据产品。

以国家灾难响应为例。嵌入应急响应团队的 AI 模型通常会分析实时卫星图像、传感器数据,甚至是社交媒体报告,以识别受灾最严重的地区。借助数据网格,从政府机构到一线响应人员等不同机构都能立即访问这些信息,而无需等待集中处理,从而提升响应速度。

数据网格还提升了 AI 治理,因为它从一开始就将治理纳入架构中,标准化诸如模型验证、偏差检测、可解释性和模型漂移监控等任务。

公共部门如何实施数据网格

每个公共部门组织都有独特的数据需求,这也是一刀切的数据孤岛模式对内部和外部用户来说往往缓慢而受限的原因。三分之二的公共部门领导表示,他们对现有的数据洞察不满意。

数据网格可以根据各类公共部门机构的独特需求进行定制,无论是国防、国家安全,还是联邦、州和地方政府。

要开始实施数据网格,公共部门机构需要遵循以下几个步骤:

  • 将数据责任分配给具体部门。
  • 将数据集视为文档完善、可访问的资产,面向内部和外部使用,并确保它们符合监管要求。
  • 实施工具,让机构、分析师和政策制定者无需依赖集中式 IT 团队也能轻松访问和分析数据。
  • 在机构之间执行治理,遵循如 FedRAMPCMMCZero Trust 等框架。
  • 最后,鼓励机构间的数据共享,在保持安全控制的同时做出更好的决策、提升公共服务。

政府与国防应用

数据网格非常适用于政府和国防领域,这些领域需要对庞大、分布式的数据集进行实时、安全的访问和分析。

国防方面,它有助于更快速地获取情报和管理资源,使一线作战人员能够依据最新数据采取行动。在公共卫生方面,它可以帮助快速整合来自医院或研究机构的流行病学数据,以应对疫情暴发。交通部门可以分析跨城市的交通和天气数据。教育部门可以查看过去十年儿童的考试成绩,并将其与其他数据交叉对比,例如远程学习与线下学习的时间比例。

以美国海军为例:其数字现代化推进依赖于"将任何信息从任何地方安全地传输到任何地方"的能力,以实现信息优势。但传统的集中式数据存储方式风险太大,尤其是在物理隔离和受限( DDIL )环境下。在这种情况下,全球数据网格可以发挥作用,让数据保留在原地,同时仍然可以在整个海军庞大的作战体系中被搜索和访问。这种去中心化方法即使某个服务器或数据中心故障,也能保持作战弹性,并在无需移动或复制数据的前提下,提供统一的任务关键数据视图。

Elastic 实现中的数据网格

作为 Search AI 公司, Elastic 的数据分析平台是强大的全球数据网格,集机器学习自然语言处理语义搜索、告警和可视化于一体。换句话说, Elastic 提供统一能力,让各机构全面可视化其数据,并具备摄取、组织、访问和分析的能力。

Elastic 的三大核心特性:

  • 跨集群搜索( CCS ):支持对一个或多个远程集群发起单个搜索请求

  • 可搜索快照:以低成本访问和查询不常用的历史数据

  • 基于角色的访问控制:提供集成的安全机制

Elastic 的数据网格方法还可以作为 Zero Trust 等现代安全框架的基础,为数据驱动的运营打开新可能。

了解更多 Elastic 如何帮助政府、医疗和教育团队以更快速度、更强规模和更高相关性释放数据价值:

探索更多公共部门中的数据网格资源

本博文中提到的任何功能或特性均以 Elastic 的最终决定为准。尚未提供的功能可能不会如期发布,甚至不会发布。

文中可能使用或提到第三方生成式 AI 工具,这些工具由各自所有者拥有和运营。 Elastic 无法控制这些第三方工具,对其内容、运行或使用不承担任何责任,也不对因使用这些工具而导致的任何损失或损害承担责任。在使用 AI 工具处理个人、敏感或机密信息时请务必小心。你提交的数据可能会被用于 AI 训练或其他用途。 Elastic 不保证你提供的信息会被安全或保密处理。你在使用前应了解相关 AI 工具的隐私政策和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 及相关标志是 Elasticsearch N.V. 在美国和其他国家的商标、徽标或注册商标。所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。

原文:Understanding data mesh in public sector: Pillars, architecture, and examples | Elastic Blog

相关推荐
G皮T6 小时前
【Elasticsearch】全文检索 & 组合检索
大数据·elasticsearch·搜索引擎·全文检索·match·query·组合检索
Elastic 中国社区官方博客10 天前
如何在 Python 中连接 Elasticsearch 并使用 Qwen3 来实现 RAG
大数据·人工智能·python·elasticsearch·搜索引擎·阿里云·全文检索
jiedaodezhuti10 天前
Elasticsearch 如果保证读写一致
大数据·elasticsearch·搜索引擎
曾燕辉10 天前
kibana和elasticsearch安装
大数据·elasticsearch·搜索引擎·kibana
花下的晚风10 天前
Spring Boot 使用 ElasticSearch
spring boot·后端·elasticsearch
jiedaodezhuti10 天前
Elasticsearch 搜索的流程
大数据·elasticsearch·搜索引擎
张敬之、10 天前
jenkins-2.439.1搭建
运维·elasticsearch·jenkins
SelectDB11 天前
网易云信 x Doris:降本70%、提速11倍, 统一 ES/InfluxDB/Hive 多技术栈的落地实践
数据库·elasticsearch·架构
Elasticsearch11 天前
Elasticsearch:什么是搜索相关性?
elasticsearch