Flume配置案例@Source:文件,Channel+Sink:Kafka

Source:某个目录下所有文件

Channel:Kafka

Sink:Kafka

【Source和Channel的选择】 1)TailDirSource TailDirSource相比ExecSource、SpoolingDirectorySource的优势。 TailDirSource:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。 ExecSource可以实时搜集数据,但是在Flume不运行或者Shell命令出错的情况下,数据将会丢失。 SpoolingDirectorySource监控目录,支持断点续传。 2)KafkaChannel 采用Kafka Channel,省去了Sink,提高了效率。

vim /opt/module/flume/job/file_to_kafka.conf


#定义组件

a1.sources = r1

a1.channels = c1

#配置source

a1.sources.r1.type = TAILDIR # 选他,可以实现断点续传,但是注意,注释在flume里不能跟在这后面

a1.sources.r1.filegroups = f1

a1.sources.r1.filegroups.f1 = /opt/module/applog/log/app.* #监控log文件夹下所有以app开头的文件,但是注意,注释在flume里不能跟在这后面

a1.sources.r1.positionFile = /opt/module/flume/job/taildir_position.json #这个文件如果提前不存在是可以的,但是注意,注释在flume里不能跟在这后面

#配置channel

a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel

a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092

a1.channels.c1.kafka.topic = topic_log

a1.channels.c1.parseAsFlumeEvent = false

#组装

a1.sources.r1.channels = c1

相关推荐
Joker时代2 小时前
WebKey备受瞩目的Web3.0新叙事,硬件与加密生态完美融合特性成为数字世界的新入口
大数据·web3·区块链
B站计算机毕业设计超人4 小时前
计算机毕业设计Python深度学习美食推荐系统 美食可视化 美食数据分析大屏 美食爬虫 美团爬虫 机器学习 大数据毕业设计 Django Vue.js
大数据·python·深度学习·机器学习·数据分析·课程设计·推荐算法
喻师傅4 小时前
Hadoop权威指南-读书笔记-01-初识Hadoop
大数据·hadoop·分布式
电商运营花5 小时前
告别盲目跟风!1688竞品数据分析实战指南(图文解析)
大数据·人工智能·经验分享·笔记·数据挖掘·数据分析
是程序喵呀5 小时前
git的基本使用
大数据·git
小白学大数据6 小时前
爬虫进阶:Selenium与Ajax的无缝集成
大数据·开发语言·爬虫·selenium·ajax
小冷在努力6 小时前
elasticsearch入门基本知识+使用案例
大数据·elasticsearch·搜索引擎·es
2402_857589367 小时前
WebKit中Websockets的全面支持:实现高效实时通信
大数据·前端·webkit
一切如来心秘密9 小时前
kafka 实现精确一次性语义实践总结
大数据·kafka
lupai9 小时前
车牌号查车辆信息-车牌号查车辆信息接口-汽车API接口
大数据·汽车·生活