一、启动hadoop、zookeeper、kafka

二、修改数据时间

三、将mysql中ad数据库中的各个表的数据写入到HDFS


四、将日志数据导入到HDFS中
1.第一台节点中
cd /opt/module/flume/
bin/flume-ng agent --conf conf/ --name a1 -conf-file job/ad_log_to_kafka.conf -Dflume.root.logger=INFO,console

2.第二台节点中
cd /opt/module/kafka/
bin/kafka-console-consumer.sh --bootstrap-server master:9092 --topic ad_log
3.第三台节点中
cd /opt/module/flume/
bin/flume-ng agent --conf conf/ --name a1 -conf-file job/ad_Kafka_to_hdfs.conf -Dflume.root.logger=INFO,console

4.再开一台第一台节点
cd /opt/module/bin/
./log.sh all 2026-06-22
查看HDFS中,数据是否上传

五、第一台节点中
http://第一台节点IP地址:12345/dolphinscheduler
账号 :admin
密码:dolphinscheduler123
操作后数据从hive中迁移到clickhouse。


1、第一台节点启动clickhouse
clickhouse-client -m
show databases;
use ad_report;
show tables;
select * from dwd_ad_event_inc
可以看到清洗后的数据
