day2-采集数据

采集数据

三台机开zkServer.sh start

spark01开start-all.sh

1 准备

  1. 日志文件

    mkdir -p /export/data/log/2023

  2. 采集方案配置文件

    mkdir /export/data/flume_conf

第一种方法(vim),第二种方法(scp):把素材的文件上传

  1. 移动python文件和拦截器

    mv g* /export/servers/

    mv FlumeInterceptor.jar /export/servers/flume-1.10.1/lib

2 采集

在spark03运行

  1. 启动Flume Agent

    复制代码
    cd /export/servers/flume-1.10.1/

    flume-ng agent --name a1 --conf /export/servers/flume-1.10.1/conf/ --conf-file /export/data/flume_conf/flume-logs-history.conf -Dflume.root.logger=INFO,console

  2. 开启新的xshell命令窗口,启动Python程序,采集历史数据

    python /export/servers/generate_user_data_history.py

  3. 检查采集的历史用户行为数据

    复制代码
    hdfs dfs -ls /origin_data/log/user_behaviors
    
    hdfs dfs -ls /origin_data/log/user_behaviors/2023-01-06
相关推荐
大厂技术总监下海1 天前
从Hadoop MapReduce到Apache Spark:一场由“磁盘”到“内存”的速度与范式革命
大数据·hadoop·spark·开源
麦麦大数据1 天前
F052pro 基于spark推荐的中医古籍知识图谱可视化推荐系统|spark mlib|hadoop|docker集群
docker·spark-ml·spark·知识图谱·可是还·中医推荐·ehcarts
巧克力味的桃子2 天前
Spark 课程核心知识点复习汇总
大数据·分布式·spark
Light602 天前
智能重构人货场:领码SPARK破解快消行业增长困局的全景解决方案
spark·数字化转型·ai大模型·智能营销·快消行业·供应链优化
叫我:松哥3 天前
基于大数据和深度学习的智能空气质量监测与预测平台,采用Spark数据预处理,利用TensorFlow构建LSTM深度学习模型
大数据·python·深度学习·机器学习·spark·flask·lstm
火龙谷3 天前
day1-部署集群
spark
火龙谷3 天前
day3-构建数仓
spark
阿里云大数据AI技术4 天前
迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升
spark
伟大的大威4 天前
在 NVIDIA DGX Spark部署 Stable Diffusion 3.5 并使用ComfyUI
stable diffusion·spark·comfyui