第二部分:数据生成==》采集==》分析==》迁移

一、启动hadoop、zookeeper、kafka

二、修改数据时间

三、将mysql中ad数据库中的各个表的数据写入到HDFS

四、将日志数据导入到HDFS中

1.第一台节点中

复制代码
cd /opt/module/flume/
bin/flume-ng agent --conf conf/ --name a1 -conf-file job/ad_log_to_kafka.conf -Dflume.root.logger=INFO,console

2.第二台节点中

复制代码
cd /opt/module/kafka/
bin/kafka-console-consumer.sh --bootstrap-server master:9092 --topic ad_log

3.第三台节点中

复制代码
cd /opt/module/flume/
bin/flume-ng agent --conf conf/ --name a1 -conf-file job/ad_Kafka_to_hdfs.conf -Dflume.root.logger=INFO,console

4.再开一台第一台节点

复制代码
cd /opt/module/bin/
./log.sh all 2026-06-22

查看HDFS中,数据是否上传

五、第一台节点中

http://第一台节点IP地址:12345/dolphinscheduler

账号 :admin

密码:dolphinscheduler123

操作后数据从hive中迁移到clickhouse。

1、第一台节点启动clickhouse

复制代码
 clickhouse-client  -m

show databases;
use ad_report;
show tables;
select * from dwd_ad_event_inc

可以看到清洗后的数据

相关推荐
m0_380167142 小时前
面向开发者的Top10加密货币数据API(2026年最新)
大数据·人工智能·区块链
yyxx4121232 小时前
上海企业如何选择专业的钉钉服务商
java·大数据·人工智能·钉钉
QZ166560951592 小时前
动态感知·全覆盖管控·符合司法要求:通用行业知形数据库风险监测合规落地方案
大数据·人工智能
GEO优化小助手3 小时前
2026临沂GEO优化公司实测解析:3家本土机构适配性参考
大数据·人工智能·python
OceanBase数据库官方博客3 小时前
OceanBase + Flink 数据集成(第二部分):通过 JDBC 协议实现实时数据同步
大数据·flink·oceanbase
跨境摸鱼4 小时前
年中政策切换窗口临近跨境卖家如何安排新品测试与库存回收
大数据·人工智能·跨境电商·跨境·营销策略
2601_960356385 小时前
大数据本科四年课程体系概览
大数据
董厂长5 小时前
Loop Engineering:停止手动提示,开始设计自动提示的系统
大数据·人工智能·驱动开发·llm
谁似人间西林客5 小时前
工业AI原生企业是什么?制造业智能化升级的新路径
大数据·人工智能·ai-native