day2-采集数据

采集数据

三台机开zkServer.sh start

spark01开start-all.sh

1 准备

  1. 日志文件

    mkdir -p /export/data/log/2023

  2. 采集方案配置文件

    mkdir /export/data/flume_conf

第一种方法(vim),第二种方法(scp):把素材的文件上传

  1. 移动python文件和拦截器

    mv g* /export/servers/

    mv FlumeInterceptor.jar /export/servers/flume-1.10.1/lib

2 采集

在spark03运行

  1. 启动Flume Agent

    复制代码
    cd /export/servers/flume-1.10.1/

    flume-ng agent --name a1 --conf /export/servers/flume-1.10.1/conf/ --conf-file /export/data/flume_conf/flume-logs-history.conf -Dflume.root.logger=INFO,console

  2. 开启新的xshell命令窗口,启动Python程序,采集历史数据

    python /export/servers/generate_user_data_history.py

  3. 检查采集的历史用户行为数据

    复制代码
    hdfs dfs -ls /origin_data/log/user_behaviors
    
    hdfs dfs -ls /origin_data/log/user_behaviors/2023-01-06
相关推荐
极光代码工作室7 小时前
基于数据分析的电影票房预测系统
大数据·python·数据分析·spark·数据可视化
KaMeidebaby1 天前
卡梅德生物技术快报|噬菌体文库构建实验优化及偶联体系实验数据分析
大数据·人工智能·架构·spark·新浪微博
鸿乃江边鸟1 天前
Spark中怎么做Spark canonicalize归一化
大数据·分布式·spark
ACP广源盛139246256733 天前
GSV2221 显示转换芯片@ACP#赋能 RTX Spark 端侧 AI 设备,构建多屏全模态视觉交互新生态
大数据·人工智能·嵌入式硬件·gpt·spark·电脑·音视频
ACP广源盛139246256733 天前
GSV2231 三屏显示扩展芯片@ACP#RTX Spark AI 终端多屏协作专属解决方案
大数据·人工智能·分布式·信息可视化·spark·电脑·音视频
KaMeidebaby4 天前
卡梅德生物技术快报|蛋白定制:ACE 抑制肽原辅料工艺全参数|适配蛋白定制的提取 & 酶解标准化实操手册
大数据·人工智能·架构·spark·新浪微博
阿里云大数据AI技术6 天前
EMR Serverless Spark 数据湖上新能力:一条 SQL 实现标量向量混合检索
人工智能·sql·spark
暴躁小师兄数据学院7 天前
【AI大数据工程师特训笔记】第16讲:大数据环境安装
大数据·hadoop·笔记·flink·spark·database
IDIOT___IDIOT7 天前
Docker 集群运行 Spark 的一些记录
docker·容器·spark