Flume配置案例@Source:文件,Channel+Sink:Kafka

Source:某个目录下所有文件

Channel:Kafka

Sink:Kafka

【Source和Channel的选择】 1)TailDirSource TailDirSource相比ExecSource、SpoolingDirectorySource的优势。 TailDirSource:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。 ExecSource可以实时搜集数据,但是在Flume不运行或者Shell命令出错的情况下,数据将会丢失。 SpoolingDirectorySource监控目录,支持断点续传。 2)KafkaChannel 采用Kafka Channel,省去了Sink,提高了效率。

vim /opt/module/flume/job/file_to_kafka.conf


#定义组件

a1.sources = r1

a1.channels = c1

#配置source

a1.sources.r1.type = TAILDIR # 选他,可以实现断点续传,但是注意,注释在flume里不能跟在这后面

a1.sources.r1.filegroups = f1

a1.sources.r1.filegroups.f1 = /opt/module/applog/log/app.* #监控log文件夹下所有以app开头的文件,但是注意,注释在flume里不能跟在这后面

a1.sources.r1.positionFile = /opt/module/flume/job/taildir_position.json #这个文件如果提前不存在是可以的,但是注意,注释在flume里不能跟在这后面

#配置channel

a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel

a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092

a1.channels.c1.kafka.topic = topic_log

a1.channels.c1.parseAsFlumeEvent = false

#组装

a1.sources.r1.channels = c1

相关推荐
maomi_952617 分钟前
MySQL 在 CentOS 7 环境下的安装教程
大数据·数据库·mysql
炒空心菜菜17 分钟前
Spark 配置 YARN 模式
大数据·spark·yarn
凯子坚持 c1 小时前
从 0 到 1:ComfyUI AI 工作流抠图构建全实践
大数据·人工智能
什么芮.3 小时前
Kafka和flume整合
spark·kafka·flume
weixin_549808369 小时前
以运营为核心的智能劳动力管理系统,破解连锁零售、制造业排班难题
大数据·人工智能·零售
SunTecTec10 小时前
Flink Docker Application Mode 命令解析 - 修改命令以启用 Web UI
大数据·前端·docker·flink
喜欢猪猪11 小时前
系统架构师---基于规则的系统架构
大数据·elasticsearch·搜索引擎
2401_8712905811 小时前
如何在idea中写spark程序
大数据·spark·intellij-idea
三块钱079411 小时前
【原创】从s3桶将对象导入ES建立索引,以便快速查找文件
大数据·elasticsearch·搜索引擎·s3
拓端研究室TRL13 小时前
PyMC+AI提示词贝叶斯项目反应IRT理论Rasch分析篮球比赛官方数据:球员能力与位置层级结构研究
大数据·人工智能·python·算法·机器学习