21-学习笔记尚硅谷数仓搭建-数据仓库模拟数据生成

目录

一、模拟数据说明及前期准备

二、生成模拟数据

三、数据同步到HDFS

四、查看表数据


备注:没有特别说明就在atguigu执行下面命令

一、模拟数据说明及前期准备

1.模拟数据说明:数据仓库上线时间假定为2022-06-08,为了符合真实的业务情况,所以要保证模拟数据包括2022-06-04、2022-06-05、2022-06-06、2022-06-07的历史数据(历史数据不含日志数据只有业务数据)和2022-06-08的全量数据(因为是从这天开始的所以要将这天的日志数据和业务数据都上传到HDFS),所以整个模拟数据包括2022-06-04、2022-06-05、2022-06-06、2022-06-07、2022-06-08的业务数据和2022-06-08的日志数据,且在HDFS上/origin_data/gmall/db路径下的所有增量表和全量表记录的2022-06-04、2022-06-05、2022-06-06、2022-06-07、2022-06-08的业务数据且都归为2022-06-08这一天的数据。

2.启动HDFS服务,删除以前采集项目时的遗留数据(在hadoop102执行下面命令)

复制代码
hdp.sh start

访问http://hadoop102:9870,删除下图框选的文件origin_data

3.启动采集项目服务,并关闭Maxwell服务,因为我们后面要生成的模拟数据要先将全量数据同步到HDFS(就是HDFS以full结尾的表------全量表),然后再开启Maxwell就行首日增量全量同步(就是HDFS以inc结尾的表------增量表),先关闭Maxwell避免全是增量表没有全量表了。(在hadoop102执行下面命令)

复制代码
cluster.sh start
mxw.sh stop

服务启动后保证只有下面的进程

二、生成模拟数据

1.更改后续需要修改文件的权限(在hadoop102执行下面命令)

复制代码
su root
chmod 777 application.yml
su - atguigu

2.修改hadoop102节点的/opt/module/applog/application.yml文件(在hadoop102执行下面命令)

复制代码
cd /opt/module/applog
vim application.yml

将5个参数修改为图中的值

生成2022-06-04的数据,输入下面命令(在hadoop102执行下面命令)

复制代码
lg.sh

去navicat查看是否正确生成了对应日期的数据

去HDFS看是否有对应日期的日志数据(后面会删,下面哪个8号的不用管)

同理修改配置生成5号的数据(在hadoop102执行下面命令)

复制代码
cd /opt/module/applog
vim application.yml

参数如图

生成5号数据(在hadoop102执行下面命令)

复制代码
lg.sh

去navicat查看,往下滑就找到5号的数据。

同理生成6、7号数据(在hadoop102执行下面命令)

复制代码
cd /opt/module/applog
vim application.yml

生成6号数据(在hadoop102执行下面命令)

复制代码
lg.sh

生成7号数据(在hadoop102执行下面命令)

复制代码
lg.sh

!!!生成数据完成后还是要去navicat和HDFS查看数据是否成功生成

因为lg.sh脚本生成数据默认会生成日志数据,所以生成数据完成后就需要将4、5、6、7号的日志数据删除,前面说了它们不需要日志数据,找到如图的路径删除topic_log

同理生成数仓搭建开始日期的数据(在hadoop102执行下面命令)

复制代码
cd /opt/module/applog
vim application.yml

生成8号数据(在hadoop102执行下面命令)

复制代码
lg.sh

去HDFS查看保证只有8号的日志数据

三、数据同步到HDFS

1.执行全量表同步脚本(在hadoop102执行下面命令)

复制代码
mysql_to_hdfs_full.sh all 2022-06-08

同步完成查看可以发现有17张full结尾的表

2.清除Maxwell断点记录

由于Maxwell支持断点续传,而上述重新生成业务数据的过程,会产生大量的binlog操作日志,这些日志我们并不需要。故此处需清除Maxwell的断点记录,令其从binlog最新的位置开始采集。

在navicat执行下面的查询语句,注意数据库是maxwell

sql 复制代码
drop table maxwell.bootstrap;
drop table maxwell.columns;
drop table maxwell.databases;
drop table maxwell.heartbeats;
drop table maxwell.positions;
drop table maxwell.schemas;
drop table maxwell.tables;

3.启动Maxwell服务(在hadoop102执行下面命令)

sql 复制代码
mxw.sh start

4.执行增量表首日全量同步脚本(在hadoop102执行下面命令)

sql 复制代码
mysql_to_kafka_inc_init.sh all

同步完成查看可以发现有17张full结尾的全量表,13张inc结尾的增量表,一共30张

四、查看表数据

1.查看全量表数据(随便选一个查看)(在hadoop102执行下面命令)

sql 复制代码
 hadoop fs -cat /origin_data/gmall/db/cart_info_full/2022-06-08/* | zcat

2.查看增量表数据(随便选一个查看)(在hadoop102执行下面命令)

sql 复制代码
 hadoop fs -cat /origin_data/gmall/db/cart_info_inc/2022-06-08/* | zcat
相关推荐
西岸行者3 天前
学习笔记:SKILLS 能帮助更好的vibe coding
笔记·学习
starlaky3 天前
Django入门笔记
笔记·django
勇气要爆发3 天前
吴恩达《LangChain LLM 应用开发精读笔记》1-Introduction_介绍
笔记·langchain·吴恩达
十月南城3 天前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark
悠哉悠哉愿意3 天前
【单片机学习笔记】串口、超声波、NE555的同时使用
笔记·单片机·学习
勇气要爆发3 天前
吴恩达《LangChain LLM 应用开发精读笔记》2-Models, Prompts and Parsers 模型、提示和解析器
android·笔记·langchain
别催小唐敲代码3 天前
嵌入式学习路线
学习
王九思3 天前
Hive Thrift Server 介绍
数据仓库·hive·hadoop
qianshanxue113 天前
计算机操作的一些笔记标题
笔记
土拨鼠烧电路3 天前
笔记11:数据中台:不是数据仓库,是业务能力复用的引擎
数据仓库·笔记