【大数据学习 | flume】flume之常见的channel组件

Channel是连接Source和Sink的组件,大家可以将它看做一个数据的缓冲区(数据队列),它可以将事件暂存到内存中也可以持久化到本地磁盘上, 直到Sink处理完该事件,Flume对于Channel,则提供了Memory Channel、JDBC Chanel、File Channel。

MemoryChannel可以实现高速的吞吐,但是无法保证数据的完整性。

FileChannel保证数据的完整性与一致性。

​ Spillable Memory Channel基于内存和磁盘,内存不够时将数据存储在磁盘中,数据出错恢复时,只恢复磁盘中的数据,还在测试阶段不建议在生产环境用。

1. file channel

bash 复制代码
# file channel

#给agent组件起名
a1.sources=r1
a1.sinks=k1
a1.channels=c1

#定义source
a1.sources.r1.type=netcat
a1.sources.r1.bind=11.90.214.80
a1.sources.r1.port=44444

#定义channel
a1.channels.c1.type=file
a1.channels.c1.dataDirs = /root/filedata

#定义sink
a1.sinks.k1.type=logger
#绑定
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

创建数据输出目录

bash 复制代码
mkdir -p /root/filedata

启动flume agent a1 服务端

bash 复制代码
flume-ng agent -n a1 -c /usr/local/flume/conf/ -f ./fileroll.agent -Dflume.root.logger=INFO,console

2. Kafka Channel

将数据存储到kafka中,kafka数据也是存储在磁盘中,并且kafka提供了高可用的功能,数据不会丢失。

重新启动镜像并需要添加kafka的组件。

bash 复制代码
#给agent组件起名
a1.sources=r1
a1.sinks=k1
a1.channels=c1

#定义source
a1.sources.r1.type=netcat
a1.sources.r1.bind=11.90.214.80
a1.sources.r1.port=44444

#定义channel
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.kafka.bootstrap.servers = kafka-1:9092,kafka-2:9092,kafka-3:9092
a1.channels.c1.kafka.topic = hainiu
a1.channels.c1.kafka.consumer.group.id = flume-consumer

#定义sink
a1.sinks.k1.type=logger
#绑定
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

启动flume agent a1 服务端

bash 复制代码
flume-ng agent -n a1 -c /usr/local/flume/conf/ -f ./kafkachannel.agent -Dflume.root.logger=INFO,console

测试kafka中是否存储flume收集过来的数据:

启动kafka消费者消费指定分区的数据

bash 复制代码
#创建主题
./kafka-topics.sh --zookeeper11.99.16.105:2181 --create --topic hainiu --replication-factor 1 --partitions 1
#生产者生产数据
./kafka-console-producer.sh --broker-list 11.99.16.105:9092--topic hainiu
#消费者消费数据
kafka-console-consumer.sh --bootstrap-server 11.99.16.105:9092 --topic hainiu

通过telnet向flume监听的端口发数据

flume logger sink将数据打印在控制台

相关推荐
TPCloud15 分钟前
学习rust语言宏之macro_rules!
开发语言·学习·rust·micro_rules
美式小田1 小时前
单片机学习笔记 3. LED灯流水灯
笔记·单片机·嵌入式硬件·学习
美式小田2 小时前
单片机学习笔记 4. 蜂鸣器滴~滴~滴~
笔记·单片机·嵌入式硬件·学习
南宫生2 小时前
力扣-Hot100-矩阵【算法学习day.36】
数据结构·学习·算法·leetcode·矩阵
大舍传媒2 小时前
海外媒体发稿:阿拉伯海湾新闻-外媒宣发的魅力与机遇
大数据·人工智能·科技·搜索引擎·媒体
青云交2 小时前
大数据新视界 -- 大数据大厂之 Impala 存储格式转换:从原理到实践,开启大数据性能优化星际之旅(下)(20/30)
大数据·性能优化·数据处理·impala·案例分析·存储格式转换·转换方法
high20112 小时前
【Apache Paimon】-- 2 -- 核心特性 (0.9.0)
大数据·数据湖·apache paimon
SeaTunnel3 小时前
解析 Apache SeaTunnel 的任务运行过程
大数据
网络安全queen3 小时前
网络安全等级测评师
网络·数据库·学习·安全·web安全
武子康3 小时前
大数据-225 离线数仓 - 目前需求分析 指标口径 日志数据采集 taildir source HDFS Sink Agent Flume 优化配置
java·大数据·数据仓库·hadoop·hdfs·数据挖掘·flume