半小时速通flume-flume概述

文章目录

1.Flume概述

  • Flume是Cloudera提供的一个高可用,高可靠的,分布式海量数据日志采集,聚合,传输系统。基于流式架构,动态实现,上传一条采集一条。
  • 企业开发,flume-->kafka集群-->hdfs

  • flume动态采集---实时;若做离线业务,完全可以使用put命令

2.Flume架构

  • 三个关键组件:Source ,Channel,Sink

  • Channel做缓冲,原因是Source,Sink速度不一致。

1.Agent

  • agent是一个JVM进程,它以时间的形式将数据从源头送至目的。
  • 三个部分组成Source、Sink、Channel

2.Source

  • 内部有很多的类型,不同的类型就是对接不同的数据源的

3.Sink

  • Sink指的是传输落点;也就是将数据传输到哪

logger是打印到控制台,测试常用。

4.Channel

  • 做缓冲的地方;
  • Memory Channel、File Channel、Kafka Channel

存到内存和磁盘各有优略;安全性和速度角度考虑。

5.Event

  • Event表示将我们的数据做了一次序列化
相关推荐
武子康26 分钟前
大数据-108 Flink 流批一体化入门:概念解析与WordCount代码实践 批数据+流数据
大数据·后端·flink
cetcht888839 分钟前
从 “有人值守” 到 “少人运维”:智能巡检机器人重塑配电室管理模式
大数据·运维·人工智能·机器人
lifallen43 分钟前
Flink Watermark机制解析
大数据·算法·flink
Sui_Network1 小时前
Sui Stack Messaging SDK:为 Web3 打造可编程通信
大数据·人工智能·科技·web3·去中心化·区块链
QYR_112 小时前
机器人定位器市场报告:2025-2031 年行业增长逻辑与投资机遇解析
大数据·人工智能
StarRocks_labs2 小时前
StarRocks 助力印度领先即时零售平台 Zepto 构建实时洞察能力
大数据·starrocks·clickhouse·存算一体·postgres mvp
大数据CLUB2 小时前
基于hive和mapreduce的地铁数据分析及可视化_hive作为数据库
大数据·hive·hadoop·分布式·数据分析·mapreduce
说私域3 小时前
蒸汽机革命后工业生产方式的变革与AI智能名片S2B2C商城小程序的影响
大数据·人工智能·小程序
深圳UMI3 小时前
AI笔记在学习与工作中的高效运用
大数据·人工智能
递归尽头是星辰5 小时前
Spark核心技术解析:从RDD到Dataset的演进与实践
大数据·rdd·dataset·spark核心·spark编程模型