技术架构新范式:数据网格如何重构数据管理责任

从"集中式数据平台"到"面向领域的数据自治",数据网格正在重新定义数据架构的边界与责任归属。

写在前面

这是《企业架构与数据治理实战》系列的第5期。在前4期中,我们先后讨论了:

  • 第0期:业务架构是数据治理的起点,业务部门应成为架构Owner;
  • 第1期:TOGAF ADM与华为4A架构的融合实践,给出了架构开发的"施工图";
  • 第2期:信息架构(IA)四步法,明确数据资产的"构件清单";
  • 第3期:以DCMM为标尺,衡量数据架构成熟度;
  • 第4期:从应用架构源头治理数据质量,将控制"编码"到系统行为中。

今天,我们把目光投向技术架构(TA)的新范式------数据网格(Data Mesh) 。当企业数据规模膨胀、业务敏捷性要求提升,传统的集中式数据平台(数据仓库、数据湖)开始暴露出瓶颈。数据网格提出了一种去中心化的、面向领域的数据管理方式,它不只是技术选型,更是一次数据责任的重构


一、传统集中式架构的困境

过去十年,大多数企业的数据架构遵循"集中式范式":

  • 一个中央数据平台(EDW/数据湖);
  • 一个中央数据工程团队;
  • 一套全局数据模型;
  • 一个入口提供所有数据服务。

这种模式在数据量可控、业务变化平缓时是高效的。但当企业面临以下挑战时,集中式架构就显出疲态:

挑战 表现
数据规模爆炸 单平台存储、计算成本线性增长,ETL作业依赖复杂
业务领域自治 各业务线(销售、生产、供应链)有自己独特的数据语义和变化节奏,强行统一模型导致反复争论
数据消费敏捷化 业务希望"自助取数",但中央团队成为瓶颈,需求堆积如山
责任错位 数据质量问题被归咎于"平台",但源头却在业务系统

数据网格正是为了解决这些困境而提出的新范式。


二、数据网格的四大原则

数据网格由Zhamak Dehghani于2019年提出,其核心不是推翻所有集中式组件,而是重新分配数据责任。四大原则如下:

1. 面向领域的数据所有权

传统模式:数据由中央团队"采集"和"发布",业务领域只是数据的生产者或消费者,不承担数据质量责任。

网格模式:每个业务领域(如客户域、订单域、库存域)拥有自己数据的全部责任------包括数据的质量、安全、标准、以及对外提供数据产品的服务等级。中央团队不再"替"领域管理数据,而是提供治理框架和基础设施。

这实际上是对我们第0期《业务架构:数据治理的起点》中提到的"业务架构Owner"概念的技术落地------业务部门不仅要定义数据口径,还要负责数据的可服务化交付。

2. 数据即产品(Data as a Product)

传统模式:数据以原始表、文件、接口的形式"抛"给消费者,消费者需要自己理解数据含义、处理脏数据、应对变化。

网格模式:每个领域将其数据产品化,这意味着:

  • 可发现:数据产品在统一目录中注册,有清晰的元数据(定义、血缘、质量等级)。
  • 可信:产品附带质量承诺(如完整性≥99.9%)、SLA和变更通知。
  • 自描述:消费者无需咨询原团队就能理解数据语义。
  • 安全:内置访问控制和审计能力。

这与我们第2期《华为4A架构中的信息架构设计方法:从数据资源到战略资产的治理之道》中的"数据标准"和第4期《架构视角下的数据质量源头治理:从应用架构到数据治理》中的"应用架构数据校验"一脉相承------只是将要求提升到了"产品级"。

3. 自服务数据基础设施

传统模式:中央平台团队提供统一的数据开发工具(ETL、调度、监控),各领域通过工单申请资源。

网格模式:平台提供自助式能力,让领域数据工程师能够在不依赖中央团队的情况下创建数据产品、配置管道、设置监控。中央平台的角色从"服务提供者"变为"平台赋能者"。

4. 联邦式计算治理

传统模式:治理由中央团队统一制定规则并强制执行(或根本不执行)。

网格模式 :治理采用"联邦"方式------全局规则(如数据安全分级、个人隐私保护)由中心制定,局部规则(如具体字段的质量阈值、数据模型)由各领域自治决策。这要求有一个轻量但权威的治理委员会,这正是我们第1期《企业架构方法论对决:TOGAF ADM与华为4A架构的融合实践》中"数据治理委员会"的定位。


三、数据网格如何重构数据管理责任?

下面的对比表清晰展现了责任转移:

责任项 传统集中式 数据网格
数据质量 中央团队负责平台内的质量,源系统责任不清 数据产品的生产者(领域)对质量负全责
数据标准 中央制定全局标准,执行困难 全局标准+领域扩展,通过契约约束
数据安全 平台权限控制,但源头漏洞难防 数据产品内置安全策略,领域负责授权
数据血缘 平台内ETL可追溯,跨系统链路黑盒 每个数据产品暴露输入输出血缘,全局拼接
数据需求响应 消费者→中央团队→排期→交付(周/月) 消费者→直接消费领域数据产品(小时/天)
数据架构演进 集中变更,影响大、周期长 领域独立演进,通过API契约保持兼容

一个典型场景:在传统模式下,销售部门抱怨客户数据不准确,中央数据团队需要协调CRM、ERP、客服系统多个源头,耗时数周。在数据网格模式下,客户域作为一个独立的数据产品负责人,直接对其输出的"客户主数据产品"质量负责。消费方只需订阅该产品,若质量不达标,直接与域负责人对话------责任清晰,闭环缩短。


四、数据网格与传统4A架构的关系

有人会问:数据网格是不是要推翻TOGAF或华为4A?当然不是。它是技术架构(TA)层面的一种范式演进,与其他架构域的关系如下:

  • 业务架构(BA):数据网格强调"面向领域",这要求业务架构首先划分清晰的领域边界(如DDD中的限界上下文)。没有合理的业务域划分,数据网格无从谈起。
  • 信息架构(IA):IA在数据网格中依然重要,但设计重点从"企业级全局模型"转向"领域数据模型 + 跨领域交互契约"。全局概念模型用于对齐,逻辑模型则由各领域自主维护,通过开放API暴露。
  • 应用架构(AA):数据网格依赖数据产品的封装,这要求应用架构中每个领域对外提供稳定的数据服务接口,本质上是一种面向数据的微服务。
  • 技术架构(TA):数据网格对技术架构提出了新的要求------支持多租户的目录服务、跨域数据产品发现、联邦身份认证、可观测性等。这些可以由数据网格平台(如Data Mesh Platform)提供。

与DCMM的衔接 :数据网格并没有否定DCMM的能力域,而是重新分配了这些能力的责任主体。例如:

  • 数据质量管理------从中央团队转移到领域;
  • 数据标准管理------从全局强制到联邦协商;
  • 数据治理组织------需要更敏捷的"治理委员会+领域代表"结构。

五、架构决策:数据网格还是数据编织?

在实际工作中,企业常困惑于数据网格(Data Mesh)与数据编织(Data Fabric)的选择。两者都是应对数据复杂性的新范式,但侧重点不同:

维度 数据网格 数据编织
核心理念 去中心化,责任下放 智能连接,逻辑统一
解决痛点 组织责任错位、领域自治 异构数据源集成、语义统一
实现方式 领域数据产品+自服务平台 主动元数据+知识图谱+AI推荐
适用场景 大型组织,多业务线,各自有成熟数据能力 数据源极分散,需要自动发现和集成
技术复杂度 高(需重构组织与流程) 中高(依赖成熟元数据工具)

决策框架:我们可以从三个维度评估:

  1. 组织规模与复杂度:如果企业有多个相对独立的业务域(如集团化公司),且每个域已有数据工程能力,数据网格更合适。如果数据源分散但组织集中,数据编织可能更经济。
  2. 数据治理成熟度:数据网格要求领域具备自律的数据治理能力,成熟度低的企业贸然采用会导致混乱。可以先从集中式向联邦治理过渡。
  3. 业务敏捷性需求:如果业务要求"天级"数据产品交付,数据网格的优势明显;如果需求变化平缓,集中式依然有效。

对于大多数制造型企业,建议渐进式演进

  • 先打好集中式数据平台基础(数据湖/湖仓一体);
  • 选择1-2个核心领域(如物料主数据、设备数据)试点"数据产品化";
  • 逐步建立联邦治理机制,再推广到更多领域。

六、总结:数据网格不是银弹,而是一面镜子

数据网格的真正价值,不在于技术工具,而在于它倒逼企业重新审视数据责任。它告诉我们:

  • 数据质量不能靠中央团队"兜底",必须让业务领域成为质量的第一责任人
  • 数据架构不仅仅是模型和血缘,更是组织架构------领域边界清晰与否,直接决定数据网格成败。
  • 集中式与去中心化不是非此即彼,而是混合模式------全局标准+领域自治,联邦治理+自服务平台。

回到本系列的主题------从架构视角看数据治理。数据网格是技术架构演进的自然延伸,它与我们之前讨论的业务架构、信息架构、应用架构一脉相承,共同构成一个责任清晰可演进可度量 的数据治理体系。


系列回顾:

  • 第0期\] [业务架构:数据治理的起点](https://blog.csdn.net/wilbertzhou/article/details/20793175?spm=1001.2014.3001.5502 "业务架构:数据治理的起点")

  • 第2期\] [华为4A架构中的信息架构设计方法:从数据资源到战略资产的治理之道](https://blog.csdn.net/wilbertzhou/article/details/25161947?spm=1001.2014.3001.5502 "华为4A架构中的信息架构设计方法:从数据资源到战略资产的治理之道")

  • 第4期\] [架构视角下的数据质量源头治理:从应用架构到数据治理](https://blog.csdn.net/wilbertzhou/article/details/17564037?spm=1001.2014.3001.5502 "架构视角下的数据质量源头治理:从应用架构到数据治理")

相关推荐
vx153027823624 小时前
CDGA|企业数据治理中,AI权限该如何拿捏分寸
大数据·人工智能·cdga·数据治理
科技小花2 天前
全球数据治理:合规与AI双引擎驱动
大数据·人工智能·数据治理·数据中台
wilbertzhou3 天前
架构视角下的数据质量源头治理:从应用架构到数据治理
数据治理·数据架构·应用架构·企业架构·4a架构
白日与明月5 天前
数据脱敏简介
数据治理
千桐科技7 天前
qData 数据中台社区开源版 v1.4.0 发布:元数据管理核心模块正式上线
开源·数据治理·数据集成·数据开发·数据中台·元数据管理·qdata
ZGi.ai8 天前
私有化大模型接入企业系统:SSO+权限+API网关完整方案
java·开发语言·大模型·私有化部署·sso·企业架构
元拓数智10 天前
AI Agent 时代,企业数据治理底座如何支撑智能应用的安全与效率
大数据·人工智能·安全·数据治理·nl2sql·自然语言查询
千桐科技13 天前
qData 数据中台专业版更新:v2.1.0 发布亮点一览,更快、更稳、更智能
开源软件·数据治理·数据集成·数据中台·元数据管理·主数据管理·qdata
Aloudata13 天前
AI 时代如何通过主动元数据构建高质量、可追溯的语义底座?
大数据·人工智能·数据治理·元数据·数据血缘