day2-采集数据

采集数据

三台机开zkServer.sh start

spark01开start-all.sh

1 准备

  1. 日志文件

    mkdir -p /export/data/log/2023

  2. 采集方案配置文件

    mkdir /export/data/flume_conf

第一种方法(vim),第二种方法(scp):把素材的文件上传

  1. 移动python文件和拦截器

    mv g* /export/servers/

    mv FlumeInterceptor.jar /export/servers/flume-1.10.1/lib

2 采集

在spark03运行

  1. 启动Flume Agent

    复制代码
    cd /export/servers/flume-1.10.1/

    flume-ng agent --name a1 --conf /export/servers/flume-1.10.1/conf/ --conf-file /export/data/flume_conf/flume-logs-history.conf -Dflume.root.logger=INFO,console

  2. 开启新的xshell命令窗口,启动Python程序,采集历史数据

    python /export/servers/generate_user_data_history.py

  3. 检查采集的历史用户行为数据

    复制代码
    hdfs dfs -ls /origin_data/log/user_behaviors
    
    hdfs dfs -ls /origin_data/log/user_behaviors/2023-01-06
相关推荐
talen_hx2961 天前
《零基础入门Spark》学习笔记 Day 13
笔记·学习·spark
zml.~1 天前
基于 Spark 的新能源汽车大数据分析全流程实践
数据分析·spark·汽车
zml.~1 天前
Spark 数据分析:从核心原理到企业级实战全解析
大数据·数据挖掘·数据分析·spark
zml.~1 天前
大数据分析实战:基于 Spark 的新能源汽车全链路数据分析指南
大数据·数据分析·spark·汽车
talen_hx2962 天前
《零基础入门Spark》学习笔记 Day 12
笔记·学习·spark
橘子编程3 天前
Spark全栈指南:从入门到精通
大数据·分布式·spark
zxfBdd3 天前
Spark Map算子异常处理方法
大数据·分布式·spark
talen_hx2968 天前
《零基础入门Spark》学习笔记 Day 11
笔记·学习·spark
howard20058 天前
2.2.2.2 使用Spark单机版环境
spark·单机版环境
howard20058 天前
2.2.2.3 Spark实战:词频统计
spark·pyspark·词频统计·spark-shell