半小时速通flume-flume概述

文章目录

1.Flume概述

  • Flume是Cloudera提供的一个高可用,高可靠的,分布式海量数据日志采集,聚合,传输系统。基于流式架构,动态实现,上传一条采集一条。
  • 企业开发,flume-->kafka集群-->hdfs

  • flume动态采集---实时;若做离线业务,完全可以使用put命令

2.Flume架构

  • 三个关键组件:Source ,Channel,Sink

  • Channel做缓冲,原因是Source,Sink速度不一致。

1.Agent

  • agent是一个JVM进程,它以时间的形式将数据从源头送至目的。
  • 三个部分组成Source、Sink、Channel

2.Source

  • 内部有很多的类型,不同的类型就是对接不同的数据源的

3.Sink

  • Sink指的是传输落点;也就是将数据传输到哪

logger是打印到控制台,测试常用。

4.Channel

  • 做缓冲的地方;
  • Memory Channel、File Channel、Kafka Channel

存到内存和磁盘各有优略;安全性和速度角度考虑。

5.Event

  • Event表示将我们的数据做了一次序列化
相关推荐
zskj_zhyl40 分钟前
数字康养新范式:七彩喜平台重构智慧养老生态的深度实践
大数据·人工智能·物联网
白码低代码1 小时前
橡胶制品行业质检管理的痛点 质检LIMS如何重构橡胶制品质检价值链
大数据·人工智能·重构·lims·实验室管理系统
Sui_Network2 小时前
Sui Basecamp 2025 全栈出击
大数据·游戏·web3·去中心化·区块链
开利网络2 小时前
开放的力量:新零售生态的共赢密码
大数据·运维·服务器·信息可视化·重构
奋斗者1号2 小时前
神经网络中之多类别分类:从基础到高级应用
大数据·神经网络·分类
Microsoft Word2 小时前
Hadoop架构再探讨
大数据·hadoop·架构
吴爃2 小时前
了解Hadoop
大数据·hadoop·分布式
caihuayuan52 小时前
Vue生命周期&脚手架工程&Element-UI
java·大数据·spring boot·后端·课程设计
Eternity......4 小时前
搭建spark yarn 模式的集群
大数据·spark
lix的小鱼5 小时前
Spark集群搭建之Yarn模式
大数据·分布式·spark