关于实时ODS层数仓搭建的三个问题

目录

问题一:数据同步的实时性无法满足

问题二:批量数据同步计算处理效率低

问题三:没有稳定的数据传输管道

FineDataLink的解决方案

实战案例-销售部门与财务部门数据同步

设置ODS层实时同步任务

设置DW层增量数据同步

[设置 DM 层任务汇总 关联销售财务数据](#设置 DM 层任务汇总 关联销售财务数据)

数仓任务运维调度


数据仓库的调度配置是实际业务中必不可少的一环。通过调度配置,可以实现数据的更新同步,从而让数据持续的应用在业务中。
传统数据处理工具一般通过定时同步的方式,在构建 ODS 层数据时,需要将大量业务系统数据进行原表原样迁移;从 数仓的ODS 层到数仓的后续层级 DW、DM,再采用全量计算的方式进行更新。

但这种方式不仅无法满足零售消费行业促销大屏、制造行业生产看板等场景的数据需求,还存在隐患,主要原因是:

问题一: 数据同步的实时性无法满足

直接从业务系统取数,业务库压力较大,导致数仓 ODS 层和业务系统间存在数据延迟,数据同步严重滞后;由于参与计算的数据比较多,导致 DW、DM也会产生数据延迟,数据时效性不足。

问题二: 批量数据同步计算处理效率低

业务库表设计不规范,没有时间戳或者主键,数据量大时只能全量计算,计算效率非常低。另外,业务系统数据跨域同步以及网络带宽限制,导致计算过程耗时较长,影响大屏、看板展示,错失业务机会。

问题三: 没有稳定的数据传输管道

数据传输没有稳定的数据管道,存在丢失、泄露、篡改等安全风险。如果系统不稳定或出现故障,还可能宕机,影响业务分析准确性。

FineDataLink的解决方案

针对上述问题,FineDataLink拥有强大的实时数据采集、批量数据同步能力,提供了完整的解决方案:

一、对于数据实时性需求,FineDataLink 通过日志增量技术 ,从业务系统实时读取数据,使用「数据管道」功能构建数仓实时 ODS 层;

二、数仓ODS层的后续层级采用增量更新 ,替代全量计算。利用时间戳标识技术 ,实现 DW 层增量更新,提升数据全链路时效性,为企业决策提供了更准确的数据依据。

三、FineDataLink的管道任务运维支持查看任务运行状态、数据同步性能、检查异常情况 、以及对异常进行处理,提供了多方面的运维保障,实现智能化运维。

实战案例-销售部门与财务部门数据同步

例如,某销售公司当前情况如下:

当前有两个部门的数据:「销售」和「财务」,目前分别存储在不同业务系统对应数据库中;在数据仓库的ODS、DW、DM 3层中,ODS层是由业务系统直接拉取过来的原始数据;DW 层是基于 ODS 层进行汇总处理的中间层数据;DM 层是基于 DW 层,并且根据报表展示诉求而加工获得的结果层数据。

需要建设以下数仓任务:将两个部门的底层数据落库至指定数据库,形成实时 ODS 层数据, ODS 层定期(每周一次)同步更新的数据到 DW层,DW层定期(每周一次)同步更新的数据到 DM层,供给其他可视化报表展示工具使用。

设置ODS层实时同步任务

构建 ODS 层数据时,需要将大量业务系统数据进行原表原样迁移。

将来自不同数据库的「财务数据」和「销售数据」使用 FDL 的「数据管道」功能,只需要几步即可批量实时同步至数据仓库的 ODS层;

1)新建管道任务,将存放「销售数据」、「财务数据」对应的数据库中对应的原始选中,并同步至存放 ODS 层数据的「test_1」数据库中:

2)设置字段映射和异常通知,并保存和启动任务

设置DW层增量数据同步

当ODS 层有新数据生成,将定时同步增量数据,即根据最新的销售时间判断选取ODS 层中的新增数据同步至DW层 ,同时记录更新的开始时间和结束时间。操作参见:设置DW层任务

1)设置财务数据定时任务,添加「参数赋值」节点,设置 SQL 语句显示当前时间(任务开始时间),并将其设置为参数 time1;

2)取出DW层中最晚订单生成时间,并设置为参数 time;

3)新建「数据同步」节点,取出ODS层中的华北财务数据,并使用time参数比较「订单生成时间」,如果华北财务数据中「订单生成时间」晚于 DW 层中数据中最晚订单时间,则将这部分新增数据同步至DW层中;

4)和获取开始时间一样,新建「参数赋值」节点,以获取结束时间并设置时间参数;

5)新增消息通知节点,DW 层执行成功则发消息通知。

设置 DM 层任务汇总 关联销售财务数据

通过定时同步将 DW 层的销售数据和财务数据进行汇总关联,落库DM 层,为其他报表等可视化工具提供数据源。操作参见:设置DM层任务

1)创建任务后新增数据转换节点,通过「DB表输入」将 DW 层的销售数据和财务数据取出;

2)新增「数据关联」,将销售订单编号和财务订单编号关联,形成宽表;

3)新增消息通知节点,DM 层执行成功则发消息通知。

数仓任务运维调度

该步骤可实现数仓三个层级的统一调度触发,智能化运维 ,操作步骤参见:设置总调度任务

1)使用「数据开发」功能创建「调度总任务」,首先获取开始时间并设置为参数,与设置DW层任务中同理

2)使用调用任务的形式将ODS层任务DW层任务DM层任务创建的三个数仓调度任务进行调用;

3)记录调度任务执行结束的时间,并设置为参数;

4)最后设置消息通知,若执行成功则通知。

FineDataLink------小到数据库对接、API对接、行列转换、参数设置,大到任务调度、运维监控、实时数据同步、数据服务API分享,另外它可以满足数据实时同步的场景,应有尽有,功能很强大。如果您需要进行实时数仓建设,帆软FDL会是您的最优解。
了解更多数据仓库与数据集成关干货内容请关注>>>​​​​​​FineDataLink官网
免费试用、获取更多信息,点击了解更多>>> 体验FDL功能
往期推荐:
【FCA FineDataLink认证指南】解锁高薪职业新机遇,提升职场竞争力-CSDN博客

一文读懂数据治理种的核心要素------元数据-CSDN博客

什么是数据孤岛?如何打破数据孤岛?-CSDN博客

相关推荐
野犬寒鸦1 小时前
从零起步学习JVM || 第一章:类加载器与双亲委派机制模型详解
java·jvm·数据库·后端·学习
IvorySQL2 小时前
PostgreSQL 分区表的 ALTER TABLE 语句执行机制解析
数据库·postgresql·开源
深圳市恒星物联科技有限公司2 小时前
水质流量监测仪:复合指标监测的管网智能感知设备
大数据·网络·人工智能
·云扬·2 小时前
MySQL 8.0 Redo Log 归档与禁用实战指南
android·数据库·mysql
IT邦德2 小时前
Oracle 26ai DataGuard 搭建(RAC到单机)
数据库·oracle
惊讶的猫2 小时前
redis分片集群
数据库·redis·缓存·分片集群·海量数据存储·高并发写
是做服装的同学2 小时前
如何选择适合的服装企业ERP系统才能提升业务效率?
大数据·经验分享·其他
不爱缺氧i3 小时前
完全卸载MariaDB
数据库·mariadb
纤纡.3 小时前
Linux中SQL 从基础到进阶:五大分类详解与表结构操作(ALTER/DROP)全攻略
linux·数据库·sql