半小时速通flume-flume概述

文章目录

1.Flume概述

  • Flume是Cloudera提供的一个高可用,高可靠的,分布式海量数据日志采集,聚合,传输系统。基于流式架构,动态实现,上传一条采集一条。
  • 企业开发,flume-->kafka集群-->hdfs

  • flume动态采集---实时;若做离线业务,完全可以使用put命令

2.Flume架构

  • 三个关键组件:Source ,Channel,Sink

  • Channel做缓冲,原因是Source,Sink速度不一致。

1.Agent

  • agent是一个JVM进程,它以时间的形式将数据从源头送至目的。
  • 三个部分组成Source、Sink、Channel

2.Source

  • 内部有很多的类型,不同的类型就是对接不同的数据源的

3.Sink

  • Sink指的是传输落点;也就是将数据传输到哪

logger是打印到控制台,测试常用。

4.Channel

  • 做缓冲的地方;
  • Memory Channel、File Channel、Kafka Channel

存到内存和磁盘各有优略;安全性和速度角度考虑。

5.Event

  • Event表示将我们的数据做了一次序列化
相关推荐
智慧化智能化数字化方案1 分钟前
69页全面预算管理体系的框架与落地【附全文阅读】
大数据·人工智能·全面预算管理·智慧财务·智慧预算
武子康37 分钟前
大数据-33 HBase 整体架构 HMaster HRegion
大数据·后端·hbase
诗旸的技术记录与分享14 小时前
Flink-1.19.0源码详解-番外补充3-StreamGraph图
大数据·flink
资讯分享周14 小时前
Alpha系统联结大数据、GPT两大功能,助力律所管理降本增效
大数据·gpt
G皮T16 小时前
【Elasticsearch】深度分页及其替代方案
大数据·elasticsearch·搜索引擎·scroll·检索·深度分页·search_after
TDengine (老段)16 小时前
TDengine STMT2 API 使用指南
java·大数据·物联网·时序数据库·iot·tdengine·涛思数据
用户Taobaoapi201418 小时前
母婴用品社媒种草效果量化:淘宝详情API+私域转化追踪案例
大数据·数据挖掘·数据分析
G皮T18 小时前
【Elasticsearch】检索排序 & 分页
大数据·elasticsearch·搜索引擎·排序·分页·检索·深度分页
小新学习屋1 天前
Spark从入门到熟悉(篇三)
大数据·分布式·spark
rui锐rui1 天前
大数据学习2:HIve
大数据·hive·学习