数据采集项目2-业务数据同步

全量同步

每天都将业务数据库中的全部数据同步一份到数据仓库

全量同步采用DataX

datax

datax使用

执行

bash 复制代码
python /opt/module/datax/bin/datax.py /opt/module/datax/job/job.json

更多job.json配置文件在:

生成的DataX配置文件

bash 复制代码
java -jar datax-config-generator-1.0-SNAPSHOT-jar-with-dependencies.jar

增量同步

每天只将业务数据中的新增及变化数据同步到数据仓库。采用每日增量同步的表,通常需要在首日先进行一次全量同步。

增量同步采用Maxwell

Maxwell 监控MySQL数据,将自己伪装成MySQL的slave,实时监控MySQL的binlog日志,并将数据转化为json,之后发送给kafka等一些流数据处理平台。

要提前开启mysql的binlog

配置maxwell

maxwell首次开启为全量,之后为增量

全量:bin/maxwell-bootstrap --database gmall --table user_info --config config.properties

增量:bin/maxwell --config config.properties --daemon

如何解决数据漂移问题?

用户行为数据生成的时候一般会自带一个时间戳ts,通过flume拦截器,将body当中数据自带的ts时间戳写入header当中的timestamp,这样HDFS Sink在落盘调度时候就可以通过数据产生的时间来落盘了。

拦截器见:

启动脚本f2_log.sh编写资料见:

相关推荐
MQ_SOFTWARE10 分钟前
文件权限标记机制在知识安全共享中的应用实践
大数据·网络
花下的晚风1 小时前
模拟flink处理无限数据流
大数据·flink
小悟空1 小时前
[AI 生成] Flink 面试题
大数据·面试·flink
livemetee2 小时前
Flink2.0学习笔记:Stream API 常用转换算子
大数据·学习·flink
AutoMQ3 小时前
技术干货|为什么越来越多企业放弃 Flink/Spark,用 AutoMQ 替代传统 ETL?
大数据
zxsz_com_cn5 小时前
智能化设备健康管理:中讯烛龙预测性维护系统引领行业变革
大数据·架构
Pigwantofly5 小时前
SpringAI入门及浅实践,实战 Spring‎ AI 调用大模型、提示词工程、对话记忆、Adv‎isor 的使用
java·大数据·人工智能·spring
拓端研究室5 小时前
专题:2025电商增长新势力洞察报告:区域裂变、平台垄断与银发平权|附260+报告PDF、原数据表汇总下载
大数据·人工智能
阿里云大数据AI技术6 小时前
[VLDB 2025]面向Flink集群巡检的交叉对比学习异常检测
大数据·人工智能·flink
青云交7 小时前
电科金仓 KingbaseES 深度解码:技术突破・行业实践・沙龙邀约 -- 融合数据库的变革之力
大数据·数据安全·数字化转型·kingbasees·企业级应用·融合数据库·多模存储