数据采集项目2-业务数据同步

全量同步

每天都将业务数据库中的全部数据同步一份到数据仓库

全量同步采用DataX

datax

datax使用

执行

bash 复制代码
python /opt/module/datax/bin/datax.py /opt/module/datax/job/job.json

更多job.json配置文件在:

生成的DataX配置文件

bash 复制代码
java -jar datax-config-generator-1.0-SNAPSHOT-jar-with-dependencies.jar

增量同步

每天只将业务数据中的新增及变化数据同步到数据仓库。采用每日增量同步的表,通常需要在首日先进行一次全量同步。

增量同步采用Maxwell

Maxwell 监控MySQL数据,将自己伪装成MySQL的slave,实时监控MySQL的binlog日志,并将数据转化为json,之后发送给kafka等一些流数据处理平台。

要提前开启mysql的binlog

配置maxwell

maxwell首次开启为全量,之后为增量

全量:bin/maxwell-bootstrap --database gmall --table user_info --config config.properties

增量:bin/maxwell --config config.properties --daemon

如何解决数据漂移问题?

用户行为数据生成的时候一般会自带一个时间戳ts,通过flume拦截器,将body当中数据自带的ts时间戳写入header当中的timestamp,这样HDFS Sink在落盘调度时候就可以通过数据产生的时间来落盘了。

拦截器见:

启动脚本f2_log.sh编写资料见:

相关推荐
技术项目引流2 小时前
elasticsearch查询中的特殊字符影响分析
大数据·elasticsearch·搜索引擎
EasyDSS2 小时前
视频监控从安装到优化的技术指南,视频汇聚系统EasyCVR智能安防系统构建之道
大数据·网络·网络协议·音视频
lilye663 小时前
精益数据分析(20/126):解析经典数据分析框架,助力创业增长
大数据·人工智能·数据分析
苏小夕夕3 小时前
spark-streaming(二)
大数据·spark·kafka
珈和info3 小时前
珈和科技助力“农险提效200%”!“遥感+”技术创新融合省级示范项目荣登《湖北卫视》!
大数据·科技·无人机·智慧农业
盈达科技3 小时前
盈达科技:登顶GEO优化全球制高点,以AICC定义AI时代内容智能优化新标杆
大数据·人工智能
电商数据girl5 小时前
产品经理对于电商接口的梳理||电商接口文档梳理与接入
大数据·数据库·python·自动化·产品经理
敖云岚5 小时前
【AI】SpringAI 第五弹:接入千帆大模型
java·大数据·人工智能·spring boot·后端
宅小海5 小时前
spark和Hadoop的区别和联系
大数据·hadoop·spark
root666/5 小时前
【大数据技术-联邦集群RBF】DFSRouter日志一直打印修改Membership为EXPIRED状态的日志分析
java·大数据·hadoop