数据采集项目2-业务数据同步

全量同步

每天都将业务数据库中的全部数据同步一份到数据仓库

全量同步采用DataX

datax

datax使用

执行

bash 复制代码
python /opt/module/datax/bin/datax.py /opt/module/datax/job/job.json

更多job.json配置文件在:

生成的DataX配置文件

bash 复制代码
java -jar datax-config-generator-1.0-SNAPSHOT-jar-with-dependencies.jar

增量同步

每天只将业务数据中的新增及变化数据同步到数据仓库。采用每日增量同步的表,通常需要在首日先进行一次全量同步。

增量同步采用Maxwell

Maxwell 监控MySQL数据,将自己伪装成MySQL的slave,实时监控MySQL的binlog日志,并将数据转化为json,之后发送给kafka等一些流数据处理平台。

要提前开启mysql的binlog

配置maxwell

maxwell首次开启为全量,之后为增量

全量:bin/maxwell-bootstrap --database gmall --table user_info --config config.properties

增量:bin/maxwell --config config.properties --daemon

如何解决数据漂移问题?

用户行为数据生成的时候一般会自带一个时间戳ts,通过flume拦截器,将body当中数据自带的ts时间戳写入header当中的timestamp,这样HDFS Sink在落盘调度时候就可以通过数据产生的时间来落盘了。

拦截器见:

启动脚本f2_log.sh编写资料见:

相关推荐
FksLiao39 分钟前
Superset配置Report & Alert实践及二次开发实践
大数据·superset
PowerBI学谦5 小时前
Python in Excel高级分析:一键RFM分析
大数据·人工智能·pandas
WHYBIGDATA8 小时前
Hive之分区表
大数据·hive·hadoop
梦醒沉醉9 小时前
HBase Shell
大数据·数据库·hbase
caihuayuan510 小时前
MySQL:MySQL8.0 JSON类型使用整理,基于用户画像的案例
java·大数据·spring boot·后端
disgare12 小时前
Hadoop 基础原理
大数据·hadoop·分布式
阿里云大数据AI技术12 小时前
阿里云 MaxCompute MaxQA 开启公测,解锁近实时高效查询体验
大数据·阿里云·云原生·实时数仓·maxcompute
moton201713 小时前
二.数据治理流程架构
大数据·数据安全·etl·数据管理·数据架构·数据流程·数据生命周期
饮长安千年月14 小时前
IOT-CVE-2018-17066(D-Link命令注入漏洞)
大数据·网络·物联网·安全·elasticsearch·搜索引擎
leeindex14 小时前
ES 渗透查询 (Percolate query)
大数据·elasticsearch·搜索引擎·全文检索·中文分词·渗透·lucene