Flume配置案例@Source:文件,Channel+Sink:Kafka

Source:某个目录下所有文件

Channel:Kafka

Sink:Kafka

【Source和Channel的选择】 1)TailDirSource TailDirSource相比ExecSource、SpoolingDirectorySource的优势。 TailDirSource:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。 ExecSource可以实时搜集数据,但是在Flume不运行或者Shell命令出错的情况下,数据将会丢失。 SpoolingDirectorySource监控目录,支持断点续传。 2)KafkaChannel 采用Kafka Channel,省去了Sink,提高了效率。

vim /opt/module/flume/job/file_to_kafka.conf


#定义组件

a1.sources = r1

a1.channels = c1

#配置source

a1.sources.r1.type = TAILDIR # 选他,可以实现断点续传,但是注意,注释在flume里不能跟在这后面

a1.sources.r1.filegroups = f1

a1.sources.r1.filegroups.f1 = /opt/module/applog/log/app.* #监控log文件夹下所有以app开头的文件,但是注意,注释在flume里不能跟在这后面

a1.sources.r1.positionFile = /opt/module/flume/job/taildir_position.json #这个文件如果提前不存在是可以的,但是注意,注释在flume里不能跟在这后面

#配置channel

a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel

a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092

a1.channels.c1.kafka.topic = topic_log

a1.channels.c1.parseAsFlumeEvent = false

#组装

a1.sources.r1.channels = c1

相关推荐
七夜zippoe8 分钟前
OpenClaw 会话管理:单聊、群聊、多模型
大数据·人工智能·fastapi·token·openclaw
longxibo1 小时前
【Ubuntu datasophon1.2.1 二开之八:验证实时数据入湖】
大数据·linux·clickhouse·ubuntu·linq
一只努力的微服务1 小时前
【Calcite 系列】深入理解 Calcite 的 AggregateFilterTransposeRule
大数据·数据库·calcite·优化规则
小堃学编程1 小时前
【项目实战】基于protobuf的发布订阅式消息队列(1)—— 准备工作
java·大数据·开发语言
无忧智库1 小时前
破局与重构:大型集团财务共享业财一体化的数字基因革命(PPT)
大数据·架构
zxm85131 小时前
UV使用及UV与Anaconda的区别
大数据·学习·机器学习·uv
贺小涛1 小时前
Git代码提交规范和踩坑排水明沟
大数据·git·elasticsearch
T06205142 小时前
【数据集】285个地级市邻接矩阵、经济地理矩阵等8个矩阵数据(2003-2023年)
大数据
逸Y 仙X2 小时前
文章十一:ElasticSearch Dynamic Template详解
java·大数据·数据库·elasticsearch·搜索引擎·全文检索
藦卡机器人11 小时前
中国工业机器人发展现状
大数据·人工智能·机器人