从"集中式数据平台"到"面向领域的数据自治",数据网格正在重新定义数据架构的边界与责任归属。
写在前面
这是《企业架构与数据治理实战》系列的第5期。在前4期中,我们先后讨论了:
- 第0期:业务架构是数据治理的起点,业务部门应成为架构Owner;
- 第1期:TOGAF ADM与华为4A架构的融合实践,给出了架构开发的"施工图";
- 第2期:信息架构(IA)四步法,明确数据资产的"构件清单";
- 第3期:以DCMM为标尺,衡量数据架构成熟度;
- 第4期:从应用架构源头治理数据质量,将控制"编码"到系统行为中。
今天,我们把目光投向技术架构(TA)的新范式------数据网格(Data Mesh) 。当企业数据规模膨胀、业务敏捷性要求提升,传统的集中式数据平台(数据仓库、数据湖)开始暴露出瓶颈。数据网格提出了一种去中心化的、面向领域的数据管理方式,它不只是技术选型,更是一次数据责任的重构。
一、传统集中式架构的困境
过去十年,大多数企业的数据架构遵循"集中式范式":
- 一个中央数据平台(EDW/数据湖);
- 一个中央数据工程团队;
- 一套全局数据模型;
- 一个入口提供所有数据服务。
这种模式在数据量可控、业务变化平缓时是高效的。但当企业面临以下挑战时,集中式架构就显出疲态:
| 挑战 | 表现 |
|---|---|
| 数据规模爆炸 | 单平台存储、计算成本线性增长,ETL作业依赖复杂 |
| 业务领域自治 | 各业务线(销售、生产、供应链)有自己独特的数据语义和变化节奏,强行统一模型导致反复争论 |
| 数据消费敏捷化 | 业务希望"自助取数",但中央团队成为瓶颈,需求堆积如山 |
| 责任错位 | 数据质量问题被归咎于"平台",但源头却在业务系统 |
数据网格正是为了解决这些困境而提出的新范式。
二、数据网格的四大原则
数据网格由Zhamak Dehghani于2019年提出,其核心不是推翻所有集中式组件,而是重新分配数据责任。四大原则如下:
1. 面向领域的数据所有权
传统模式:数据由中央团队"采集"和"发布",业务领域只是数据的生产者或消费者,不承担数据质量责任。
网格模式:每个业务领域(如客户域、订单域、库存域)拥有自己数据的全部责任------包括数据的质量、安全、标准、以及对外提供数据产品的服务等级。中央团队不再"替"领域管理数据,而是提供治理框架和基础设施。
这实际上是对我们第0期《业务架构:数据治理的起点》中提到的"业务架构Owner"概念的技术落地------业务部门不仅要定义数据口径,还要负责数据的可服务化交付。
2. 数据即产品(Data as a Product)
传统模式:数据以原始表、文件、接口的形式"抛"给消费者,消费者需要自己理解数据含义、处理脏数据、应对变化。
网格模式:每个领域将其数据产品化,这意味着:
- 可发现:数据产品在统一目录中注册,有清晰的元数据(定义、血缘、质量等级)。
- 可信:产品附带质量承诺(如完整性≥99.9%)、SLA和变更通知。
- 自描述:消费者无需咨询原团队就能理解数据语义。
- 安全:内置访问控制和审计能力。
这与我们第2期《华为4A架构中的信息架构设计方法:从数据资源到战略资产的治理之道》中的"数据标准"和第4期《架构视角下的数据质量源头治理:从应用架构到数据治理》中的"应用架构数据校验"一脉相承------只是将要求提升到了"产品级"。
3. 自服务数据基础设施
传统模式:中央平台团队提供统一的数据开发工具(ETL、调度、监控),各领域通过工单申请资源。
网格模式:平台提供自助式能力,让领域数据工程师能够在不依赖中央团队的情况下创建数据产品、配置管道、设置监控。中央平台的角色从"服务提供者"变为"平台赋能者"。
4. 联邦式计算治理
传统模式:治理由中央团队统一制定规则并强制执行(或根本不执行)。
网格模式 :治理采用"联邦"方式------全局规则(如数据安全分级、个人隐私保护)由中心制定,局部规则(如具体字段的质量阈值、数据模型)由各领域自治决策。这要求有一个轻量但权威的治理委员会,这正是我们第1期《企业架构方法论对决:TOGAF ADM与华为4A架构的融合实践》中"数据治理委员会"的定位。
三、数据网格如何重构数据管理责任?
下面的对比表清晰展现了责任转移:
| 责任项 | 传统集中式 | 数据网格 |
|---|---|---|
| 数据质量 | 中央团队负责平台内的质量,源系统责任不清 | 数据产品的生产者(领域)对质量负全责 |
| 数据标准 | 中央制定全局标准,执行困难 | 全局标准+领域扩展,通过契约约束 |
| 数据安全 | 平台权限控制,但源头漏洞难防 | 数据产品内置安全策略,领域负责授权 |
| 数据血缘 | 平台内ETL可追溯,跨系统链路黑盒 | 每个数据产品暴露输入输出血缘,全局拼接 |
| 数据需求响应 | 消费者→中央团队→排期→交付(周/月) | 消费者→直接消费领域数据产品(小时/天) |
| 数据架构演进 | 集中变更,影响大、周期长 | 领域独立演进,通过API契约保持兼容 |
一个典型场景:在传统模式下,销售部门抱怨客户数据不准确,中央数据团队需要协调CRM、ERP、客服系统多个源头,耗时数周。在数据网格模式下,客户域作为一个独立的数据产品负责人,直接对其输出的"客户主数据产品"质量负责。消费方只需订阅该产品,若质量不达标,直接与域负责人对话------责任清晰,闭环缩短。
四、数据网格与传统4A架构的关系
有人会问:数据网格是不是要推翻TOGAF或华为4A?当然不是。它是技术架构(TA)层面的一种范式演进,与其他架构域的关系如下:
- 业务架构(BA):数据网格强调"面向领域",这要求业务架构首先划分清晰的领域边界(如DDD中的限界上下文)。没有合理的业务域划分,数据网格无从谈起。
- 信息架构(IA):IA在数据网格中依然重要,但设计重点从"企业级全局模型"转向"领域数据模型 + 跨领域交互契约"。全局概念模型用于对齐,逻辑模型则由各领域自主维护,通过开放API暴露。
- 应用架构(AA):数据网格依赖数据产品的封装,这要求应用架构中每个领域对外提供稳定的数据服务接口,本质上是一种面向数据的微服务。
- 技术架构(TA):数据网格对技术架构提出了新的要求------支持多租户的目录服务、跨域数据产品发现、联邦身份认证、可观测性等。这些可以由数据网格平台(如Data Mesh Platform)提供。
与DCMM的衔接 :数据网格并没有否定DCMM的能力域,而是重新分配了这些能力的责任主体。例如:
- 数据质量管理------从中央团队转移到领域;
- 数据标准管理------从全局强制到联邦协商;
- 数据治理组织------需要更敏捷的"治理委员会+领域代表"结构。
五、架构决策:数据网格还是数据编织?
在实际工作中,企业常困惑于数据网格(Data Mesh)与数据编织(Data Fabric)的选择。两者都是应对数据复杂性的新范式,但侧重点不同:
| 维度 | 数据网格 | 数据编织 |
|---|---|---|
| 核心理念 | 去中心化,责任下放 | 智能连接,逻辑统一 |
| 解决痛点 | 组织责任错位、领域自治 | 异构数据源集成、语义统一 |
| 实现方式 | 领域数据产品+自服务平台 | 主动元数据+知识图谱+AI推荐 |
| 适用场景 | 大型组织,多业务线,各自有成熟数据能力 | 数据源极分散,需要自动发现和集成 |
| 技术复杂度 | 高(需重构组织与流程) | 中高(依赖成熟元数据工具) |
决策框架:我们可以从三个维度评估:
- 组织规模与复杂度:如果企业有多个相对独立的业务域(如集团化公司),且每个域已有数据工程能力,数据网格更合适。如果数据源分散但组织集中,数据编织可能更经济。
- 数据治理成熟度:数据网格要求领域具备自律的数据治理能力,成熟度低的企业贸然采用会导致混乱。可以先从集中式向联邦治理过渡。
- 业务敏捷性需求:如果业务要求"天级"数据产品交付,数据网格的优势明显;如果需求变化平缓,集中式依然有效。
对于大多数制造型企业,建议渐进式演进:
- 先打好集中式数据平台基础(数据湖/湖仓一体);
- 选择1-2个核心领域(如物料主数据、设备数据)试点"数据产品化";
- 逐步建立联邦治理机制,再推广到更多领域。
六、总结:数据网格不是银弹,而是一面镜子
数据网格的真正价值,不在于技术工具,而在于它倒逼企业重新审视数据责任。它告诉我们:
- 数据质量不能靠中央团队"兜底",必须让业务领域成为质量的第一责任人。
- 数据架构不仅仅是模型和血缘,更是组织架构------领域边界清晰与否,直接决定数据网格成败。
- 集中式与去中心化不是非此即彼,而是混合模式------全局标准+领域自治,联邦治理+自服务平台。
回到本系列的主题------从架构视角看数据治理。数据网格是技术架构演进的自然延伸,它与我们之前讨论的业务架构、信息架构、应用架构一脉相承,共同构成一个责任清晰 、可演进 、可度量 的数据治理体系。
系列回顾:
-
第0期\] [业务架构:数据治理的起点](https://blog.csdn.net/wilbertzhou/article/details/20793175?spm=1001.2014.3001.5502 "业务架构:数据治理的起点")
-
第2期\] [华为4A架构中的信息架构设计方法:从数据资源到战略资产的治理之道](https://blog.csdn.net/wilbertzhou/article/details/25161947?spm=1001.2014.3001.5502 "华为4A架构中的信息架构设计方法:从数据资源到战略资产的治理之道")
-
第4期\] [架构视角下的数据质量源头治理:从应用架构到数据治理](https://blog.csdn.net/wilbertzhou/article/details/17564037?spm=1001.2014.3001.5502 "架构视角下的数据质量源头治理:从应用架构到数据治理")