Flume配置案例@Source:文件,Channel+Sink:Kafka

Source:某个目录下所有文件

Channel:Kafka

Sink:Kafka

【Source和Channel的选择】 1)TailDirSource TailDirSource相比ExecSource、SpoolingDirectorySource的优势。 TailDirSource:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。 ExecSource可以实时搜集数据,但是在Flume不运行或者Shell命令出错的情况下,数据将会丢失。 SpoolingDirectorySource监控目录,支持断点续传。 2)KafkaChannel 采用Kafka Channel,省去了Sink,提高了效率。

vim /opt/module/flume/job/file_to_kafka.conf


#定义组件

a1.sources = r1

a1.channels = c1

#配置source

a1.sources.r1.type = TAILDIR # 选他,可以实现断点续传,但是注意,注释在flume里不能跟在这后面

a1.sources.r1.filegroups = f1

a1.sources.r1.filegroups.f1 = /opt/module/applog/log/app.* #监控log文件夹下所有以app开头的文件,但是注意,注释在flume里不能跟在这后面

a1.sources.r1.positionFile = /opt/module/flume/job/taildir_position.json #这个文件如果提前不存在是可以的,但是注意,注释在flume里不能跟在这后面

#配置channel

a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel

a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092

a1.channels.c1.kafka.topic = topic_log

a1.channels.c1.parseAsFlumeEvent = false

#组装

a1.sources.r1.channels = c1

相关推荐
TOWE technology19 分钟前
PDU、工业连接器与数据中心机柜电力系统
大数据·人工智能·数据中心·idc·pdu·智能pdu·定制电源管理
五度易链-区域产业数字化管理平台26 分钟前
行业研究+大数据+AI:“五度易链”如何构建高质量产业数据库?
大数据·人工智能
aitoolhub28 分钟前
AI 生图技术解析:从训练到输出的全流程机制
大数据·人工智能·深度学习
计算所陈老师44 分钟前
Palantir的核心是Ontology
大数据·人工智能·知识图谱
Macbethad1 小时前
工业设备系统管理程序技术方案
大数据·wpf
安达发公司1 小时前
安达发|颜色与产能如何兼得?APS高级排程织就智慧生产网
大数据·人工智能·aps高级排程·aps排程软件·安达发aps
武子康1 小时前
大数据-175 Elasticsearch Term 精确查询与 Bool 组合实战:range/regexp/fuzzy 全示例
大数据·后端·elasticsearch
小码哥0681 小时前
企业灵活用工小程序(解析+源码)
大数据·企业灵活用工·灵活用工·企业用工·用工系统
Deepoch1 小时前
发动机设计迎突破!Deepoc-M低幻觉模型重塑研发逻辑
大数据·人工智能·deepoc