采集数据
三台机开zkServer.sh start
1 准备
-
日志文件
mkdir -p /export/data/log/2023
-
采集方案配置文件
mkdir /export/data/flume_conf
第一种方法(vim),第二种方法(scp):把素材的文件上传
-
移动python文件和拦截器
mv g* /export/servers/
mv FlumeInterceptor.jar /export/servers/flume-1.10.1/lib
2 采集
在spark03运行
-
启动Flume Agent
cd /export/servers/flume-1.10.1/flume-ng agent --name a1 --conf /export/servers/flume-1.10.1/conf/ --conf-file /export/data/flume_conf/flume-logs-history.conf -Dflume.root.logger=INFO,console
-
开启新的xshell命令窗口,启动Python程序,采集历史数据
python /export/servers/generate_user_data_history.py
-
检查采集的历史用户行为数据
hdfs dfs -ls /origin_data/log/user_behaviors hdfs dfs -ls /origin_data/log/user_behaviors/2023-01-06