day2-采集数据

火龙谷2026-01-11 9:45

采集数据

三台机开zkServer.sh start

spark01开start-all.sh

1 准备

日志文件

mkdir -p /export/data/log/2023
采集方案配置文件

mkdir /export/data/flume_conf

第一种方法（vim），第二种方法（scp）：把素材的文件上传

移动python文件和拦截器

mv g* /export/servers/

mv FlumeInterceptor.jar /export/servers/flume-1.10.1/lib

2 采集

在spark03运行

启动Flume Agent
复制代码
```
cd /export/servers/flume-1.10.1/
```
flume-ng agent --name a1 --conf /export/servers/flume-1.10.1/conf/ --conf-file /export/data/flume_conf/flume-logs-history.conf -Dflume.root.logger=INFO,console
开启新的xshell命令窗口，启动Python程序，采集历史数据

python /export/servers/generate_user_data_history.py

检查采集的历史用户行为数据

复制代码

hdfs dfs -ls /origin_data/log/user_behaviors

hdfs dfs -ls /origin_data/log/user_behaviors/2023-01-06

上一篇：解锁流畅体验：UX 设计中降低认知负荷的核心策略与实践

下一篇：控制算法：PID算法

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03CC-Switch & Claude 基于 Linux 服务器安装使用指南 04用了半年 OpenRouter，我换到了 Ofox.ai — 两个 AI API 聚合平台的真实对比 05几个好用的ip纯净度检测网站 06裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 07Gemini大升级、AI眼镜首发、Android XR亮相，13天后见分晓 08【AI】2026 年具身智能模型和世界模型总结 09【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 10codex app每次打开重连5次Reconnecting问题解决