数据采集-->kafka-->hdfs

数据采集到kafka

flume:

复制代码
a1.sources = r1
a1.channels = c1


a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /opt/installs/flume1.9/job/a.log
a1.sources.r1.positionFile = /opt/installs/flume1.9/job/taildir-kafka.json

a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.kafka.bootstrap.servers =hadoop11:9092,hadoop12:9092,hadoop13:9092
a1.channels.c1.kafka.topic = topica
a1.channels.c1.parseAsFlumeEvent = false

a1.sources.r1.channels = c1

执行命令:

复制代码
flume-ng agent --conf conf  --name a1 --conf-file job/taildir-kafka.conf -Dflume.root.logger=INFO,console

向a.log添加测试数据:

消费者:

数据从kafka到hdfs

flume:

复制代码
a1.sources = r1
a1.channels = c1 
a1.sinks = k1 

a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r1.batchSize=5000
a1.sources.r1.batchDurationMillis=2000
a1.sources.r1.kafka.bootstrap.servers =hadoop11:9092,hadoop12:9092,hadoop13:9092
a1.sources.r1.kafka.topics = topica
a1.sources.r1.kafka.consumer.group.id = g1

a1.channels.c1.type = memory
a1.channels.c1.capacity=5000
a1.channels.c1.transactionCapacity=5000


a1.sinks.k1.type = hdfs
a1.sinks.k1.batchSize = 5000
a1.sinks.k1.hdfs.path = hdfs://hadoop11:8020/flume/date=%Y-%m-%d
a1.sinks.k1.hdfs.useLocalTimeStamp = true
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.rollInterval =0 
a1.sinks.k1.hdfs.rollSize = 1048576
a1.sinks.k1.hdfs.rollCount = 0
 
a1.sources.r1.channels = c1 
a1.sinks.k1.channel = c1

执行命令:

复制代码
flume-ng agent --conf conf  --name a1 --conf-file job/kafka-hdfs.conf -Dflume.root.logger=INFO,console

向a.log添加测试数据:

消费者:

hdfs:

相关推荐
超级种码7 分钟前
Kafka四部曲之一:Kafka的核心概念
分布式·kafka
TDengine (老段)19 分钟前
TDengine Rust 连接器进阶指南
大数据·数据库·物联网·rust·时序数据库·tdengine·涛思数据
YangYang9YangYan26 分钟前
中专大数据技术专业学习数据分析的价值分析
大数据·学习·数据分析
九河云31 分钟前
数据驱动未来,华为云DWS为智能决策提速
大数据·人工智能·安全·机器学习·华为云
FONE_Platform40 分钟前
能源化工行业全面预算解决方案:重塑双碳目标下的财务新动能
大数据·人工智能
项目整合库1 小时前
Coinstore B.KU 数字金融与 RWA 主题活动圆满举行
大数据·金融
kekekka1 小时前
2026年软文营销平台深度甄选指南:破解选择困境,聚焦长效价值
大数据·媒体
Java 码农1 小时前
RabbitMQ集群部署方案及配置指南09
分布式·rabbitmq
华奥系科技1 小时前
老旧社区适老化智能改造,两个系统成社区标配项目
大数据·人工智能