Flume配置案例@Source:文件,Channel+Sink:Kafka

Source:某个目录下所有文件

Channel:Kafka

Sink:Kafka

【Source和Channel的选择】 1)TailDirSource TailDirSource相比ExecSource、SpoolingDirectorySource的优势。 TailDirSource:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。 ExecSource可以实时搜集数据,但是在Flume不运行或者Shell命令出错的情况下,数据将会丢失。 SpoolingDirectorySource监控目录,支持断点续传。 2)KafkaChannel 采用Kafka Channel,省去了Sink,提高了效率。

vim /opt/module/flume/job/file_to_kafka.conf


#定义组件

a1.sources = r1

a1.channels = c1

#配置source

a1.sources.r1.type = TAILDIR # 选他,可以实现断点续传,但是注意,注释在flume里不能跟在这后面

a1.sources.r1.filegroups = f1

a1.sources.r1.filegroups.f1 = /opt/module/applog/log/app.* #监控log文件夹下所有以app开头的文件,但是注意,注释在flume里不能跟在这后面

a1.sources.r1.positionFile = /opt/module/flume/job/taildir_position.json #这个文件如果提前不存在是可以的,但是注意,注释在flume里不能跟在这后面

#配置channel

a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel

a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092

a1.channels.c1.kafka.topic = topic_log

a1.channels.c1.parseAsFlumeEvent = false

#组装

a1.sources.r1.channels = c1

相关推荐
weixin_177297220691 小时前
家政小程序系统开发:打造便捷高效的家政服务平台
大数据·小程序·家政
galaxylove2 小时前
Gartner发布数据安全态势管理市场指南:将功能扩展到AI的特定数据安全保护是DSPM发展方向
大数据·人工智能
扁豆的主人8 小时前
Elasticsearch
大数据·elasticsearch·jenkins
想ai抽9 小时前
Flink重启策略有啥用
大数据·flink
TMT星球9 小时前
TCL华星t8项目正式开工,总投资额约295亿元
大数据·人工智能
阿里云大数据AI技术9 小时前
云栖实录 | 驶入智驾深水区:广汽的“数据突围“之路
大数据·人工智能
B站_计算机毕业设计之家10 小时前
python股票交易数据管理系统 金融数据 分析可视化 Django框架 爬虫技术 大数据技术 Hadoop spark(源码)✅
大数据·hadoop·python·金融·spark·股票·推荐算法
腾讯云开发者11 小时前
太古可口可乐的数智跃迁:用 AI 重构快消渠道的“最后一公里”
大数据
GIS数据转换器11 小时前
2025无人机在农业生态中的应用实践
大数据·网络·人工智能·安全·无人机
武子康11 小时前
大数据-132 Flink SQL 实战入门 | 3 分钟跑通 Table API + SQL 含 toChangelogStream 新写法
大数据·后端·flink