数据采集-->kafka-->hdfs

数据采集到kafka

flume:

复制代码
a1.sources = r1
a1.channels = c1


a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /opt/installs/flume1.9/job/a.log
a1.sources.r1.positionFile = /opt/installs/flume1.9/job/taildir-kafka.json

a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.kafka.bootstrap.servers =hadoop11:9092,hadoop12:9092,hadoop13:9092
a1.channels.c1.kafka.topic = topica
a1.channels.c1.parseAsFlumeEvent = false

a1.sources.r1.channels = c1

执行命令:

复制代码
flume-ng agent --conf conf  --name a1 --conf-file job/taildir-kafka.conf -Dflume.root.logger=INFO,console

向a.log添加测试数据:

消费者:

数据从kafka到hdfs

flume:

复制代码
a1.sources = r1
a1.channels = c1 
a1.sinks = k1 

a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r1.batchSize=5000
a1.sources.r1.batchDurationMillis=2000
a1.sources.r1.kafka.bootstrap.servers =hadoop11:9092,hadoop12:9092,hadoop13:9092
a1.sources.r1.kafka.topics = topica
a1.sources.r1.kafka.consumer.group.id = g1

a1.channels.c1.type = memory
a1.channels.c1.capacity=5000
a1.channels.c1.transactionCapacity=5000


a1.sinks.k1.type = hdfs
a1.sinks.k1.batchSize = 5000
a1.sinks.k1.hdfs.path = hdfs://hadoop11:8020/flume/date=%Y-%m-%d
a1.sinks.k1.hdfs.useLocalTimeStamp = true
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.rollInterval =0 
a1.sinks.k1.hdfs.rollSize = 1048576
a1.sinks.k1.hdfs.rollCount = 0
 
a1.sources.r1.channels = c1 
a1.sinks.k1.channel = c1

执行命令:

复制代码
flume-ng agent --conf conf  --name a1 --conf-file job/kafka-hdfs.conf -Dflume.root.logger=INFO,console

向a.log添加测试数据:

消费者:

hdfs:

相关推荐
昵称暂无113 分钟前
分布式事务难题:Seata框架在微服务中的落地实践
分布式·微服务·架构
juniperhan15 分钟前
link 系列第7篇:Flink 状态管理全解析(原理+类型+存储+实操)
大数据·数据仓库·flink
ACGkaka_19 分钟前
ES 学习(九)从文本到词元:分词器如何“拆解“你的数据
大数据·学习·elasticsearch
lifallen21 分钟前
Flink Agents:Python 执行链路与跨语言 Actor (PyFlink Agent)
java·大数据·人工智能·python·语言模型·flink
江瀚视野22 分钟前
京东健康综合门诊望京开业,京东医疗路在何方?
大数据·人工智能
财经资讯数据_灵砚智能32 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月11日
大数据·人工智能·python·信息可视化·自然语言处理·ai编程
聊点儿技术33 分钟前
IPv6来了,IP精准定位服务还能“准”吗?
大数据·网络·人工智能·ip·ipv4·ipv6·ip精准定位
wanhengidc44 分钟前
云手机搬砖安全吗
大数据·运维·服务器·安全·游戏·智能手机
都说名字长不会被发现1 小时前
分布式场景下的数据竞争问题与解决方案
分布式·乐观锁·悲观锁·redission·redis 分布式锁·数据版本
甘露s1 小时前
分布式与可重入性的一些问题
分布式