(二十八)大数据实战——Flume数据采集之kafka数据生产与消费集成案例

前言

本节内容我们主要介绍一下flume数据采集和kafka消息中间键的整合。通过flume监听nc端口的数据,将数据发送到kafka消息的first主题中,然后在通过flume消费kafka中的主题消息,将消费到的消息打印到控制台上。集成使用flume作为kafka的生产者和消费者。关于nc工具、flume以及kafka的安装部署,这里不在赘述,请读者查看作者往期博客内容。整体架构如下:

正文

  • 启动Kafka集群,创建first主题
  • 启动Kafka集群
  • 创建first主题

    kafka-topics.sh --bootstrap-server hadoop101:9092 --create --topic first --partitions 3 --replication-factor 3

  • 查看first主题详情

    kafka-topics.sh --bootstrap-server hadoop101:9092 --describe --topic first

  • 在hadoop101服务器flume安装目录/opt/module/apache-flume-1.9.0/job下创建nc监听服务
  • 创建nc监听的flume任务:job-netcat-flume-kafka.conf

    1 组件定义

    a1.sources = r1
    a1.sinks = k1
    a1.channels = c1

    2 配置 source

    a1.sources.r1.type = netcat
    a1.sources.r1.bind = hadoop101
    a1.sources.r1.port = 1111

    3 配置 channel

    a1.channels.c1.type = memory
    a1.channels.c1.capacity = 1000
    a1.channels.c1.transactionCapacity = 100

    4 配置 sink

    a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
    a1.sinks.k1.kafka.bootstrap.servers = hadoop101:9092,hadoop102:9092,hadoop103:9092
    a1.sinks.k1.kafka.topic = first
    a1.sinks.k1.kafka.flumeBatchSize = 20
    a1.sinks.k1.kafka.producer.acks = 1
    a1.sinks.k1.kafka.producer.linger.ms = 1

    5 拼接组件

    a1.sources.r1.channels = c1
    a1.sinks.k1.channel = c1

  • 在hadoop102服务器flume安装目录/opt/module/apache-flume-1.9.0/job下创建kafka监听r任务
  • 创建kafka监听的flume任务:job-kafka-flume-console.conf

    1 组件定义

    a1.sources = r1
    a1.sinks = k1
    a1.channels = c1

    2 配置 source

    a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
    a1.sources.r1.batchSize = 50
    a1.sources.r1.batchDurationMillis = 200
    a1.sources.r1.kafka.bootstrap.servers = hadoop101:9092,hadoop102:9092,hadoop103:9092
    a1.sources.r1.kafka.topics = first
    a1.sources.r1.kafka.consumer.group.id = custom.g.id

    3 配置 channel

    a1.channels.c1.type = memory
    a1.channels.c1.capacity = 1000
    a1.channels.c1.transactionCapacity = 100

    4 配置 sink

    a1.sinks.k1.type = logger

    5 拼接组件

    a1.sources.r1.channels = c1
    a1.sinks.k1.channel = c1

  • 在hadoop102服务器启动kafka监听任务job-kafka-flume-console.conf
  • 启动job-kafka-flume-console.conf任务

    bin/flume-ng agent -c conf/ -n a1 -f job/job-kafka-flume-console.conf -Dflume.root.logger=INFO,console

  • 在hadoop101服务器启动nc监听任务job-netcat-flume-kafka.conf
  • 启动job-netcat-flume-kafka.conf任务

    bin/flume-ng agent -c conf/ -n a1 -f job/job-netcat-flume-kafka.conf -Dflume.root.logger=INFO,console

  • 使用netcat工具发送数据到nc服务1111端口
  • 发送nc消息
  • 查看结果
  • 控制台结果

结语

该案例证明了flume1成功采集到了nc监听端口的数据,并将数据发送到了kafka主题first中,flume2成功从kafka主题中消费到了数据并打印到了控制台。关于Flume数据采集之kafka数据生产与消费的集成案例到这里就结束了,我们下期见。。。。。。

相关推荐
Francek Chen14 分钟前
【大数据基础】大数据处理架构Hadoop:01 Hadoop概述
大数据·hadoop·分布式·架构
互联网科技看点1 小时前
诸葛io获认可:金融分析智能体赛道领航者
大数据·人工智能·金融
2301_800256112 小时前
全球气候与环境变化考试知识点梳理(1)
大数据·人工智能
edisao2 小时前
六、 读者高频疑问解答 & 架构价值延伸
大数据·开发语言·人工智能·科技·架构·php
-大头.2 小时前
GIT教程系列(共3篇)---------第二篇:Git高级协作与团队实战完全指南
大数据·git·elasticsearch
HXDGCL3 小时前
大会观察 | 破除创新链堵点:论“工厂直供”模式如何加速自动化核心部件迭代
大数据·人工智能·自动化·自动化生产线·环形导轨
五度易链-区域产业数字化管理平台3 小时前
五度易链企业数据服务架构思考:从“存数据”到“用数据”的全周期解决方案
大数据·人工智能·架构
OpenCSG3 小时前
提示词工程到AgenticOps:OpenCSG公益课
大数据·人工智能·开源·opencsg
EasyGBS4 小时前
EasyGBS的金融网点全场景智能可视化监管方案设计
大数据·人工智能
拓端研究室4 小时前
2026中国医美护肤产品行业发展与未来趋势蓝皮书:射频、胶原蛋白、PDRN与肉毒素|附90+份报告PDF、数据、可视化模板汇总下载
大数据·人工智能