很多企业经历了多年的信息化建设,完成了业务系统的在线化和数字化,积累了大量的数据。基于数据实现更加科学全面的经营决策、更加精准的营销运营、更加高效的生产组织与供应链管理和更加智能的客户服务也逐渐成为企业内生的需求。
统一建设以数据湖仓为核心的一套数据中台,提升数据开发的效能与质量是 CIO 们的第一反应。
其实先不必急于选型,让我们来结合过去十年间数智化先行者们的中台经验与教训,推演下我们从 0 到 1 建设数据体系需要提前考虑的问题。
计划建设数据中台前,需要提前考虑哪些问题?
- 您的企业和业务伙伴做好准备了么?
数据体系最终是要为业务服务的,最简单质朴的诉求就是让业务及时用上好数据。
做到这一点,不仅仅是技术团队的问题,更重要的是我们的管理层和业务侧是否已经完成了用数需求的梳理,很清楚要看什么样的数据,达成怎样的业务价值。
数仓建模水平的高低不仅是个技术问题,更重要的是对业务的理解,这一点是资深 ETL 工程师与普通工程师的重要分水岭。具体来说,
-
ODS 层要按照业务系统的逻辑进行数据组织,并根据业务需求选择合适的数据存储策略与分区策略,并能及时捕捉业务系统的变化;
-
DWD 层是面向业务过程的,要识别和定义关键业务过程完成建模,而不仅仅是通过技术能力确保数据质量与数据粒度;
-
DIM 层要根据分析需求设计维度以确保维度的一致性并支持不同分析粒度;
-
DWS 层是面向主题域的,要根据分析主题划分主题域,根据分析场景设计中间表以提高复用性并平衡数据的汇总程度与查询性能;
-
ADS 层是直接面向应用场景的,业务需求直接决定了这一层的资产规模与成本。
传统数仓开发基于物理数据的拷贝与加工,每一层建模都涉及到数据计算与存储的成本和数据开发与任务运维的人力成本。如果企业从战略层到业务执行层还没有养成用数的习惯,也没有清晰明确的用数场景,数仓建模缺乏需求驱动的规划性,会导致高投入与低产出。一旦模型先行,业务需求的灵活变化也会导致很多前置成本浪费,模型变更的代价并不亚于重新建设。
综上,大量失败的中台案例究其原因,可能第一步就错了。
2.您的团队做好准备了么?
目前市面上有着众多的一体化中台产品,数仓建模也是一套比较成熟的方法论,容易让人误以为数据体系建设等同于一次性部署和后期常规的代码开发测试上线。这种想法过于简单了。
数据开发与管理可以划分为数据集成、数据加工和数据消费三大步骤,相关的工作内容、工具对象与所需知识技能如下表:
如上表所示,数据开发是一项综合工程,涵盖了从数据的收集、存储、处理、分析到应用的全过程,高度类似工业领域的流程制造,具有较高的复杂度,需要工程师具备多方面的知识和技能。
数据工程所面临的诸多技术挑战包括:
-
处理大规模数据的存储和计算问题
-
确保数据质量和一致性
-
优化查询性能和响应时间
-
实现数据安全和隐私保护
-
构建可扩展和高可用的数据架构
-
平衡业务响应效率、数据质量与存算成本
应对以上挑战,不仅要具备数据科学与软件工程的综合技能,还考验着数据工程师对业务的理解与对多种工具和技术的驾驭能力。这也意味着,建设与管理企业的数据体系需要一个具有一定人数的专业团队。
3.您本人做好准备了么?
作为企业数据平台的一号位,您本人不仅是具备前述各种数据工程知识、技术与经验的专家,而且还要为数据体系的 ROI 负责。
"R"是数据体系建设的收益,即企业从数据洞察中获得的价值。 无论是管理层战略决策、经营管理的数据支撑,还是未来越来越频繁与深入的营销运营用数需求,让业务及时用上好数据都是您的首要任务。及时,对应的是数据交付的效率问题;好,对应的是数据质量问题。
"I"是数据体系建设的成本,既包含基础设施和相关工具的投资也包含开发、运维与管理的人力投入。无论在数智化的哪个阶段,如何满足和提升数据交付的时效和质量需求都要结合成本来综合考虑。
现代数据工程与架构以数据仓库技术与生态工具为基础,其运作的基本前提是数据的物理集成,其最核心的工程方法论是 ETL。
前者意味着无论数据的位置如何分散,数据的变化如何频繁,数据最终是否被查询使用,都必须将全域数据进行同步集中,才能进行后续的加工整合和交付使用,也意味着对数据的每一层加工都伴随着数据的拷贝和加载;
后者意味着数据的流动要伴随着同步、整合、建模、交付等一系列工作流和大量代码开发、作业配置、作业运维、性能调优和链路治理的人工工作。
企业数智化的深入,对技术团队意味着数据源、数据类型、数据规模、数据需求的快速膨胀和变更的频繁发生,也就意味着数据链路和数据工程的复杂度持续增加。
数据链路不断加长,汇总层和集市层表数量不断膨胀,如果说资产数量和开发工作量是线性增长的话,任务配置、调度、变更和运维的工作量则是指数级增长,伴随而来的还有质量风险的不断扩大、存算资源成本的快速拉高、数据治理的难度和压力越来越大。
归纳来说。基于物理集中的数据开发是投资先行、持续投入,但效益不确定的模式,随着数字化的深入,效率、质量与成本必将构成一个不可能三角,三者间的平衡取舍是所有 CDO 共同面对的难题。
作为企业数据平台的一号位,当您要牵头启动数据体系建设项目的时候,要用长期可持续的视角来进行整体规划和设计,还要综合考虑到企业目前和未来的用数需求和团队能力。
如果传统中台思路注定会走进效率、质量与成本困局,是否存在全新的思路和全新的方案达成更好的 ROI 呢?
答案是肯定的。
数据虚拟化技术为数据体系建设提供了新思路
近年来,在数据源高度分散、数据量爆发式增长的背景下,数据虚拟化技术得到了快速发展。
数据虚拟化是一种先进的数据管理技术,它为数据使用者提供了一个统一的、抽象的和封装的视图,使用户能够查询和操作存储在异构数据存储集合中的数据。
数据虚拟化技术通过创建一个逻辑数据层,集成了分散在不同系统中的企业数据,实现了集中化的安全管理和治理。
数据虚拟化的核心特征包括数据封装、抽象和按需集成。它允许用户实时或近实时地访问分散的数据,而无需物理移动或复制。经过国内外众多企业的实践验证,数据虚拟化技术具有下述优势:
-
降低维护成本: 相比传统的数据物理集成,数据虚拟化通过创建虚拟数据层,省去了多次物理复制、移动和存储数据的高昂费用。
-
提高数据访问效率: 数据虚拟化为用户提供了一个统一的数据访问平面,简化了数据访问过程。
-
增强数据安全性: 通过集中化的数据管理,数据虚拟化可以更好地实现数据安全控制和治理。
-
支持实时数据处理: 数据虚拟化允许实时或近实时地访问数据,满足了现代企业对实时数据分析的需求。
同传统中台体系相比,数据虚拟化最大的差异是无需物理集中,"以销定产",提供更加实时的数据访问与统一的安全管理,特别适用于需要整合多源异构数据、提高数据访问效率、增强数据安全性的场景,为正在规划建设数据体系的企业提供了一种全新的思路。
Aloudata 基于数据虚拟化技术的 NoETL 解决方案
Aloudata 团队在大规模数据体系建设与长期管理实践中,充分体验到传统 ETL 工程体系的复杂性与效能瓶颈,因此始终致力于提升 ETL 工程自动化水平,以"让数据随时就绪"为使命。
以数据虚拟化技术为基石,Aloudata 推出了两款 NoETL 的自动化数据管理软件------Aloudata AIR 和 Aloudata CAN,通过两者的结合,企业可以实现 ETL 的高度自动化进而达成"快速用上好数据"的目标。
Aloudata AIR 逻辑数据编织平台基于 Data Fabric 理念,自研国内首个数据虚拟化引擎,实现逻辑数据集成、自动化数据编排和自适应查询加速。无需关心数据存放位置、数据任务运维和查询性能优化,直接基于 SQL 即可对全域数据进行探索、加工与查询。
Aloudata AIR 具有以下特性:
-
零搬运,秒级数据集成
Aloudata AIR 快速连接上百种数据源,无需物理集中数据,无需配置同步任务和等待同步成功,秒级完成数据集成。
-
One SQL,跨源、跨引擎统一查询
Aloudata AIR 屏蔽 SQL 方言差异, 无需关心计算引擎的差异,用一种 SQL 方言完成全域数据的逻辑整合和统一查询;无需修改 SQL 代码,实现计算引擎的透明升级。
-
逻辑建模,定义即研发,变更即发布
Aloudata AIR 支持逻辑数据集的灵活定义与实时变更,变更实时生效或通过关系投影的自动化更新生效,告别复杂的物理建模与变更操作。
-
NoETL,智能作业编排
Aloudata AIR 通过创新的自适应关系投影(Predictive Relational Projection)技术,支持自动或手动生成与更新逻辑数据集的关系投影,并自动拆解路由各类复杂的数据集的查询需求,统一流批处理。
-
自适应查询加速,10 倍提高查询性能
Aloudata AIR 可以基于查询数据规模和性能要求,智能路由至预计算结果或直接下推至底层查询引擎,并通过用户查询行为理解自动化生成加速方案。
-
自治理,显著降本增效
Aloudata AIR 依据查询行为自动回收低收益的关系投影或重新选择最佳投影构建方案,相比其他加速方案,降低至少 30% 数据存算成本和 70% ETL 运维成本。
对于数据体系建设 0-1 阶段的企业来说,逻辑数仓是比传统物理湖仓更加简单、经济和高效的方案。无需前置大量投资和大规模团队建设,即可快速实现数据探查、集成加工与交付,让数据团队从繁重的物理 ETL 任务中解放出来,更加专注于沟通、理解与支持业务需求。通过更高效的需求响应,数据团队可以快速实现投资收益,获取更高的 ROI。
区别于目前市面主流的数据虚拟化产品,Aloudata AIR 通过 RP 技术不仅可以确保敏捷用数场景下的查询性能,还可以实现智能作业编排,自动化代持人工 ETL 调度与运维作业,进而通过物化快照完成需要保留历史数据的模型资产的持久化。因此,Aloudata AIR 兼具传统数仓与数据虚拟化技术的双重优势。
Aloudata CAN 自动化指标平台,可以直接对接数仓公共层的明细模型,支持用户通过业务语义表达实现配置化的指标定义,系统代持数仓汇总层和应用层的 ETL 作业,实现自动化指标生产。
基于全部明细数据的自动化 ETL 能力,让业务人员实现任意指标、任意维度的灵活组合分析与归因下钻,真正获取全部明细数据的分析自由。
系统代持指标开发,轻松实现指标口径与名称校验判重,彻底解决指标口径不一致的问题。统一指标服务,一处定义,下游多场景可共同消费口径一致的指标。
通过 NoETL 自动化的指标平台,企业可以一举解决指标开发效率低、分析不灵活、应用层报表无序膨胀导致的数据治理和指标口径治理难等顽疾,进一步降低数仓开发压力,提升业务用数的效率和质量。
结合 Aloudata AIR 和 Aloudata CAN,我们向数据体系 0-1 阶段的企业推荐下述最佳实践:
-
采用 Aloudata AIR 作为逻辑中台,对接各个业务系统的数据,快速实现逻辑集成与数据整合;
-
数仓团队结合业务需求完成 DWD 层的逻辑建模和模型的持续优化,沉淀高质量的数据资产;
-
根据查询访问的情况配置 RP,按需物化高频访问的数据模型,确保查询性能;
-
应用 Aloudata CAN 对接 Aloudata AIR 中的 DWD 层明细模型,配置化指标定义,自动化指标开发,开放化指标服务。
上述方案在证券、能源、制造、医疗等客户生产场景中获得了真实验证,对比传统方案均实现了 10 倍以上的数字化运营效率提升、50% 以上的存储成本节约和 70% 以上的 ETL 数据管理工作量下降,为企业的数智化深入奠定了坚实的基础。