day2-采集数据

采集数据

三台机开zkServer.sh start

spark01开start-all.sh

1 准备

  1. 日志文件

    mkdir -p /export/data/log/2023

  2. 采集方案配置文件

    mkdir /export/data/flume_conf

第一种方法(vim),第二种方法(scp):把素材的文件上传

  1. 移动python文件和拦截器

    mv g* /export/servers/

    mv FlumeInterceptor.jar /export/servers/flume-1.10.1/lib

2 采集

在spark03运行

  1. 启动Flume Agent

    复制代码
    cd /export/servers/flume-1.10.1/

    flume-ng agent --name a1 --conf /export/servers/flume-1.10.1/conf/ --conf-file /export/data/flume_conf/flume-logs-history.conf -Dflume.root.logger=INFO,console

  2. 开启新的xshell命令窗口,启动Python程序,采集历史数据

    python /export/servers/generate_user_data_history.py

  3. 检查采集的历史用户行为数据

    复制代码
    hdfs dfs -ls /origin_data/log/user_behaviors
    
    hdfs dfs -ls /origin_data/log/user_behaviors/2023-01-06
相关推荐
D愿你归来仍是少年2 天前
Apache Spark 第 3 章:核心概念 RDD / DataFrame
大数据·spark·apache
Hello.Reader2 天前
PySpark 安装保姆级教程pip、Conda、手动安装、Spark Connect 一次讲透(一)
python·spark·conda·pip
Light602 天前
SPARK Agent Protocol(SAP):AI Agent时代的前端开发革命指南
大数据·人工智能·spark
D愿你归来仍是少年2 天前
Apache Spark 第 4 章:Spark 整体架构
spark·apache
datablau国产数据库建模工具2 天前
【无标题】
大数据·数据挖掘·spark
yumgpkpm2 天前
Apache Spark 和 Flink,处理实时大数据流对比(Cloudera CDH、CDP)
flink·spark·apache
D愿你归来仍是少年3 天前
Apache Spark 从入门到精通:完整学习指南
大数据·spark
D愿你归来仍是少年3 天前
Apache Spark Real-Time Mode 深度解析:打破微批次壁垒,挑战 Flink 的实时王座
flink·spark·apache
jerryinwuhan3 天前
Spark 安装配置1
大数据·分布式·spark
sunxunyong4 天前
spark History Server 重启失败
大数据·分布式·spark